DATA & ANALYTICS – BigQuery, Cloud Dataflow, an ISP, and big data – a real story of evolution

PABLO CAIF : 안녕하세요 제 발표에와 주셔서 감사합니다

이 프리젠 테이션은 호주 ISP의 이야기입니다 그리고 그들이 어떻게 그들의 큰 데이터를 다루려고하는지, 아주 작은 팀과 함께, BigQuery 및 데이터 흐름을 사용하여 마침내 유용한 통찰력을 얻을 수 있도록 도와줍니다 그래서 나는 나 자신에 대해 조금 더 이야기 할 것이다 먼저 그래서 나는 전에 언급하지 않았습니다, 제 이름은 파블로 카이프입니다

저는 소프트웨어 엔지니어입니다 나는 13 년이 조금 넘었습니다 그리고 Shine Technologies에서 일합니다 Shine Technologies는 컨설팅 회사입니다 멜버른, 호주 또는 기반 당신이 여기서 부르는대로 그리고 우리는 기본적으로 고객을 돕습니다

그리고이 이야기의 고객 인 고객 중 한 명은 Telstra입니다 저는 Google 개발자 전문가이기도합니다 Google Cloud Platform의 경우 그리고 나는 호주 출신이지만, 안된다고해서 미안해 원래 호주 억양이기 때문에 여기에 아르헨티나 출신 그래서 스페인어 악센트가 많이 여기에

Telstra에 대해 조금 이야기 해 봅시다 따라서 Telstra는 ISP 및 이동 통신 사업자 중 최대 규모입니다 호주에서 그들은 대부분의 모바일 네트워크를 소유하고 있습니다 호주의 실제 전화망

그리고 그들은 가정용 인터넷과 같은 서비스를 제공합니다 액세스, 모바일 액세스 및 광대역 액세스도 제공합니다 그리고 그들은 많은 계정과 고객을 가지고 있습니다 가정용 인터넷 액세스와 모바일 액세스 및 물건 간 이처럼 2,000 만 개 이상의 계정을 보유하고 있습니다 그리고 우리가 사람들을 고려한다면 호주에서는 인구가 2400 만 명에 불과하지만, 그것은 공정한 분배입니다

그들은 매우 큰 회사입니다 그들은 32,000 명 이상의 직원을 보유하고 있습니다 그리고 그들은 많은 돈을 벌어들입니다 그러나 그들에 관해 특별한 것이 있습니다 이는 처리 할 데이터가 많다는 것입니다

그래서 내가 너에게 말할 모든 것들 실제로는 소규모 비즈니스에 관한 것입니다 Telstra Media는 Telstra Media입니다 그리고 그들은 큰 디지털 출판사입니다 그리고 그들이하는 일은 그들이 몇 가지 매우 높은 것을 소유하고 있다는 것입니다 호주의 프로필 웹 사이트

그리고 당신이 지금 할 수있는만큼, 호주에서는, 우리는 스포츠를 꽤 좋아합니다 따라서이 웹 사이트 중 2 개는 AFL, 호주 축구 리그 및 NRL, 국가 럭비 리그 그리고이 웹 사이트는 특히 계절에 따라 다릅니다 게임을하고 있고 그런 것들을하고있다 사람들은 끊임없이 결과를 확인하고 있다고 상상할 수 있습니다

그런 것들 그래서 그들은 많은 교통량을 얻습니다 따라서 초당 약 5,000 건의 요청입니다 또한 웹 사이트를 상상할 경우, 그들은 모든 정보가 담긴 중앙 공간을 가지고 있습니다 관심사가 될만한 것들

그러나 그들은 또한 디지털 부동산, 우주 공간을 가지고있다 그들이 이점을 얻는다는 것 그래서 그들은이 공간에서 무엇을합니까? 그들은 많은 광고를 냈습니다 따라서 이들이 광고를 통해하는 행동은 기본적으로 타겟 광고를 사용하여 수익을 창출하십시오 그리고이 표적으로 한 광고, 그것은 기본적으로 기본적인 인구 통계를 통해, 이는 몇 가지 데이터 포인트가 있음을 의미합니다

광고를 게재 할 수있는 방법 DoubleClick for Publishers 또는 DFP를 사용하고 있습니다 광고 서버로 그리고 광고가 게재 될 때마다, 그것이 바로 우리가 인상이라고 부르는 것입니다 또는 누군가가 광고를 클릭하면 로그 항목을 얻습니다 그리고 그 로그 엔트리는 많은 흥미로운 데이터를 담고 있습니다 우리가 사용할 수있는 포인트

그리고 그들은 사실 그것에서 많은 정보를 만듭니다 상상해보십시오 초당 15,000 건의 요청 우리의 페이지, 우리의 웹 페이지를 치고 우리가이 모든 것들을 모으려고한다면, 그것은 한 달에 50 억 회의 노출로 바뀔 것입니다 한 달에 약 3 테라 바이트 정도 정보

원근법으로 말하면, 태양의 나이 45 억년입니다 모든 것을 상황에 맞추기 위해, 거의 10 년 전인 2007 년이었습니다 그리고 고객 Telstra는 말합니다 유용한 정보를 얻기 시작하십시오 이 모든 로그 중에서 우리가 계속 생성하는 모든 것들? 그러나 그들은 그것이 아니라는 것을 알아 냈습니다

DFP를 사용하여 그 당시의 작업을 쉽게 처리 할 수 ​​있습니다 사업 사람들을 상상하기 때문에 이러한 보고서를 생성합니다 시간이 많이 걸렸습니다 우리가 알아 내려고하는 것들, 이렇게 많은 양의 데이터를 찾기가 매우 어려웠습니다 그리고 그들이 그것에서 무엇이든을 얻을 수있을 때마다, 그것은 오랜 시간이 걸렸습니다

그리고 그들이 조금 제한적이었던 것을 발견하고 있었던 물건 중의 1 개 상자 밖 시각화도 없었습니다 그들이 사용할 수있는 그래서 그들은 우리를 부르며 말합니다 우리를 도울 수 있습니까? 그래서 우리는 전에 그들과 함께 일해 왔습니다 그리고 우리는 팀을 결성하기로 결정했습니다 Telstra의 사업 부서는 비교적 독립적입니다

사업 부문 그들은 그들 자신의 예산을 가지고있다 그리고 그들은 특정 혁신을 할 수 있습니다 그래서 우리는 팀을 구성했고 엔지니어 2 명, BA 1 명, 그게 우리가 가진 전부 였어 그래서 우리는 OK라고 말했습니다

어떻게이 문제를 해결할 수 있습니까? 그래서 우리는이 모든 데이터를 분석하려고했습니다 우리가 한 일, 2007 년에 누군가가 다시 할 일, 그것을 데이터웨어 하우스에 넣으려고했는데, 서버를 사용하는 Oracle 인스턴스에서, 자체 서버 임대, 랙 및 스택 인프라, 물론 많은 두통이 있었기 때문에 그렇지 않았습니다 우리가 새로운 서버를 원할 때마다, 승인을 얻는 데 6 개월이 걸릴 수 있습니다 마침내 우리가 마침내 3 개월이 될 때까지 실제 서버를 얻습니다 그런 다음 구성과 같은 것들

시간이 걸리고 비싸다 데이터 양은 엄청난 양의 데이터였습니다 우리는 단지 10 % 만보고 분석 할 수있었습니다 Oracle 인스턴스에서 쿼리를 실행하려고한다고 상상해보십시오 같은 데이터웨어 하우스 및 물건

그리고이 사업에 비용이 많이 든다는 것이 밝혀졌습니다 단위 그리고 그들이 가진 주요 문제 중 하나 우리가 더 많은 데이터를 얻을 때마다, 규모를 맞추기가 어려웠습니다 내가 전에 말했듯이, 새로운 절단기를 얻는다면, 실제로 그것을 얻기 위해 6 개월에서 8 개월을 기다리고 있습니다 우리가 할 수없는 것들에 대해서도 돈을 지불합니다

항상 사용하고있어 라 매우 높은 수준에서 이것은 우리의 솔루션이 어떻게 보 였는지입니다 그래서 우리는 요청을 웹 페이지에 올렸습니다 그리고 제가 언급 한 것처럼 우리는 사용하고있었습니다 전에는 광고를 게재 할 게시자를 두 번 클릭하십시오

그리고 우리는이 모든 로그를 가져 왔습니다 이러한 데이터웨어 하우스에 저장하려고합니다 그러나 우리가 기대했던 것만 큼 작동하지 않았습니다 우리는 이렇게 조금 끝내었다 항상 불을 끄고

그래서 두 명의 엔지니어와 BA를 볼 수 있습니다 따라서 데이터베이스의 공간 부족, 테이블 스페이스의 크기를 조정하기 위해 DBA에 연락해야하는 경우, 하드 드라이브가 고장 나고 누군가 우리에게 전화하는 것 그리고 우리에게 말하길, 당신의 오래된 데이터, 당신 아마이 데이터를 모두 사용할 때까지 사용할 수 없을 것입니다 우리가 모든 백업과 모든 것을 복구 할 때까지 2, 3 일 다시 온라인 상태입니다 정말 쉽지는 않았습니다 그래서 우리는 우리가 모든 것을 너무 많이 돌 보았다는 것을 깨닫게되었습니다

이 인프라 우리가 그것을 잡으려고 노력하는 것은 거대한 [INAUDIBLE]이었습니다 모든 상황을 막아라 그러나 우리는이 모든 데이터에서 결과를 얻고 싶었습니다 그것은 우리가 정말로 신경 쓰는 모든 것이 었습니다

그래서 2007 년에 우리는 막 다른 골목에 처해있었습니다 이 데이터를 DFP에서 내부 인프라로 이전 매우 어려웠고 오랜 시간이 걸렸습니다 우리는 모든 트래픽 때문에 모든 네트워크를 포화 상태로 만들었습니다 우리는 생성하고 있었다 그래서 우리는 끊임없이 전화와 사람들을 괴롭 히고있었습니다

모든 것이 느리게 진행 되었기 때문입니다 그리고 엄청난 양의 데이터를 통해 쿼리를 실행하려고하면, 그것은 정말로, 정말로 느 렸습니다 그리고 나는 몇 분 또는 몇 시간을 말하는 것이 아닙니다 며칠 걸릴 수도 있습니다 쿼리를 시작하고 다음날 다시 올 수도 있습니다

그것이 실제로 끝나기를 희망합니다 때로는 충돌 할 수도 있고 DBA에게 연락하여 데이터베이스를 조정할 수 있어야합니다 조금 더 그래서 2007 년에,이 부분은 정말로, 우리에게 정말로 컸습니다 그리고 우리는 무엇을해야할지 몰랐습니다

그래서 우리는이 모든 데이터에 익사가되어 버렸습니다 그러나 필사적으로 그것에서 통찰력을 얻기 위하여 시험해 그 후 오랜 시간이 지난 후에 우리는 기본적으로 이것을 서랍에 넣습니다 또는 우리가 호주에서 말한 것처럼 뒤쪽 버너에 2012 년, 몇 년 후, 꽤 많이 바뀌었다

그래서 Google은 클라우드 서비스를 제공하고있었습니다 그리고 이것이 2012 년에 제공 한 것입니다 App Engine, Cloud Storage에 대해 몇 가지 정보를 제공합니다 그러나 우리는 거기에서 매우 흥미있는 무엇인가 알아 차렸다 BigQuery입니다

그래서 다른 엔지니어와 함께 우리는 연구를 시작했습니다 BigQuery는 무엇인가요? 이미 BigQuery에 대해 많이 들었습니다 이것은 실제로 GTP Next의 두 번째 날입니다 그러나 우리에게 매우 흥미로운 것이 무엇인지 말해 줄 것입니다 따라서 서비스는 분석입니다

그리고 이것은 우리에게 중요한 포인트였습니다 따라서 인프라 및 문제에 대해 걱정하지 마세요 그런 상황 BigQuery 설치를 고려할 필요가 없었습니다 어디서나 클러스터를 설정하거나 구성 할 수 있습니다

사물이나 뭐든지 계정을 만들고 데이터를 입력 한 다음, 및 데이터 쿼리 페타 바이트까지 확장 할 수있었습니다 우리가 찾고 있던 것입니다 SQL 인터페이스가 있습니다

이전에 언급했듯이 오라클을 사용하고있었습니다 우리는 SQL에 익숙했습니다 그것은 우리에게 완벽했습니다 우리는 단지 거의 같은 구문을 사용할 수 있습니다 데이터를 가져 오십시오

그리고 그것은 정말로, 정말로 빠릅니다 그래서 우리 자신을 궁금해합니다 이 BigQuery 도구를 사용하여이 모든 문제를 해결하십시오 2007 년에 우리가 돌아왔다 그래서 우리는 전체 문제에서 먼지를 제거했습니다

그것을 꺼내서 생각하기 시작했습니다 그리고 우리는 그것이 가능하다는 것을 알아 냈습니다 이 문제를 해결할 방법이있었습니다 그래서 우리는이 모든 로그, 광고 게재 로그 DoubleClick for Publishers에서 가져 와서 클라우드 저장소에 저장합니다 BigQuery를 사용하면 매우 쉽습니다

클라우드 스토리지에서 직접 데이터 가져 오기 CSV 파일을 사용하여 모든 것을 BigQuery에 저장합니다 그리고 우리는 Tableau와 연결되었습니다 그리고 마침내 통찰력을 얻을 수있었습니다 그래서이 모든 불가능한 것들 우리는 전에 성취 할 수 없었던 모든 일이 갑자기 가능하게되었습니다 우리는 데이터를 매우 빠르게 이동할 수있었습니다

동일한 인프라 내에서 이전에했던 것처럼 다운로드 할 필요가 없었습니다 우리는 인프라에 대해 너무 걱정하지 않았습니다 더 이상 DBA를 호출하지 않아야합니다 더 이상의 네트워크가 깨지거나 서버와 물건이 고장났습니다 그런 식으로

우리의 비용은 기하 급수적으로 감소했습니다 그리고이 긴 시간 또는 며칠 쿼리가 갑자기 끝나기를 바란다 초로 바뀌었다 결과를 얻기 위해 몇 초 만에 상상해보십시오 그리고 이것은 우리 고객 Telstra를 허용했습니다

통찰력을 얻기 위해 매우 빠른 시간을 갖기 위해 이 모든 로그 중 그리고 다른 매우 흥미로운 것들 BigQuery를 사용하여 임시 보고서를 작성하는 데 적합합니다 그래서 한 번 DBA가 나에게 와서 말한 것을 기억합니다 나는 아주 중요한 회의에 가고있다 이해 관계자들과 2 ~ 3 년 분의 데이터를 쿼리 할 수 ​​있습니다

당신은 그것을 할 수 있습니다? 예 나는 거기 앉아서 SQL을 썼다 됐어 앞에서 언급했듯이 DFP에서 데이터를 매우 쉽게 이동할 수 있습니다 BigQuery는 Google 인프라 내에서 모두 사용 되었기 때문에 그리고 우리는 자바를 사용하고있었습니다

우리는 여전히 우리가 수행하는 대부분의 작업에 Java를 사용하고 있습니다 그래서 우리가 SDK를 사용하는 것은 매우 자연스러운 일이었습니다 이제 BigQuery는 Java, Python, 기타 몇 가지 언어가 있습니다 그래서 우리는 Java SDK를 사용하고 있습니다 그리고 그것은 우리에게 정말로 비용 효과적이었습니다

그러나 비용 효과적인 방법은 무엇입니까? 따라서 DBA에게 지불 할 금액을 계산하려고하면, 귀하의 서버에 돈을 지불하고, 사람들에게 돈을 지불하는 것 전체 인프라가 끝나면 네가 그걸 못하게 할 수 있다고 생각하지 마라, 나도 몰라 나방 당 $ 40, $ 50k 우리에게는 단지 $ 1,500에 불과했습니다 100 테라 바이트 당 매월 그것을 전파하십시오

그래서 저는 여러분에게 몇 가지 것을 말할 것입니다 BigQuery를 사용할 때 우리는 당신과 함께 나누고 싶습니다 우리가 발견 한 흥미로운 점 중 하나는 캐시였습니다 그래서 우리가 돈을 저축하는 것이 매우 유용했습니다 따라서 BigQuery를 사용하면 쿼리 결과를 캐시 할 수 있습니다

따라서 쿼리를 실행할 때 쿼리 옵션을 표시하고 가져 가라 캐시 결과를 사용하면 기본적으로 결과가 캐시됩니다 다음에 쿼리를 실행하면 비용을 지불하지 않습니다 여기 예제가 있습니다 이 쿼리는 11

5 기가 바이트를 처리합니다 그래서 실행되면 2 초가 걸립니다 그리고 전에 우리에게 말했듯이, 실제로 처리 된 115 기가 바이트 하지만 우리가 두 번째로 그것을 실행할 때, 결과가 캐시에서 비롯된 것입니다

따라서 데이터를 다시 처리하기 위해 비용을 지불하지 않아도됩니다 우리가 발견 한 또 다른 매우 유용한 것은 테이블 데코레이터입니다 테이블 데코레이터를 사용하면 데이터의 스냅 샷을 얻을 수 있습니다 그리고 매우 유용합니다 네가 끊임없이있는 테이블을 가져라

에서 스트리밍 정보 예를 들어,이 표는 SELECT *는 권장 할만한 것이 아니며, 처리 할거야 나는 갈거야 460 기가 바이트를 통과합니다 그리고 내가 마지막 시간을 제한하기 위해 테이블 ​​데코레이터를 놓는다면, 당신은 그것이 어떻게 67 메가 바이트로 크게 줄어들는지 알 수 있습니다

우리가 매우 유용하다고 생각한 또 다른 것 작은 데이터 세트로 시작하는 아이디어였습니다 쿼리를 작성할 때 그리고 당신은 당신이 당신의 SQL을 갖고 싶어하는 방법을 알아 내려고 노력하고있다 그리고 당신은 여러 테이블에 가입하고 싶습니다 작은 테이블에 데이터를 저장하는 것은 항상 좋은 생각입니다 단지 1,000 개의 행, 100,000 개 또는 그와 비슷한 것입니다

예를 들어 여기서 볼 수 있습니다 예를 들어이 표를 가지고 노는다면 그렇게하면 115 기가 바이트를 처리하게됩니다 그러나 1,000 레코드 만 저장하면, 테이블은 38 킬로바이트로 줄어들고, 그것은 완전히 다른 것입니다 이것이 BigQuery의 마지막 단계입니다

우리가 매우 유용하다고 생각한 또 다른 것 BigQuery를 사용하는 것처럼 쉽습니다 길을 따라 테이블을 잊기 테이블을 가지고 놀면 몇 기가 바이트 테이블에있는 가치있는 데이터 그래서 실제로 사용되는 것이 있다면, 시간 실시간 기능으로 데이터 세트에서도 사용할 수 있습니다 그러나 Java SDK를 사용할 때 테이블에 대한 예제가 있습니다

만료 시간으로 설정됩니다 이 경우에는 1 분입니다 변경 사항을 적용하면 테이블이 제거됩니다 임시 테이블을 가지고있을 때 매우 좋습니다 만료 시간을 설정하면됩니다

그리고 나는 단지 두 명의 엔지니어를 되풀이하고 싶습니다 그게 팀 이었어 그래서 우리는 다음 단계로 이동하기로 결정했습니다 DFP에서 모든 로그를 가져와 이러한 모든 작업을 수행했습니다 그리고 우리는 실시간으로 시도해 보지 않겠습니까? 우리는 매우 흥미로운 몇 가지 것을보기 시작했습니다

그것에 대해 그래서 한 가지는 캠페인이 될 것입니다 관리자는 방법에 대한 매우 좋은 피드백을 얻을 수 있습니다 그들의 광고는 가고 있었다 그리고 그 결과로, 그들은 어쩌면 타겟팅하지 않는 경우 수정할 수 있습니다

올바른 인구 통계 그들은 뭔가를 바꾸고 싶었어 그것을 즉시 변경할 수있었습니다 그리고 그것은 사업이 실제로 그것과 함께 움직일 수있게했습니다 일이 실제로 일어나고있을 때 결정을 내려야합니다

그들이 일어난 후에가 아니라 그리고이 일괄 처리는 이전과 마찬가지로 DFP에서 데이터를 가져 오는 것이 좋습니다 그러나 매일 밤마다 달리고있었습니다 그리고 시간이 지남에 천천히 돌아 왔습니다 그리고 우리에게 매우 흥미로운 것은 와우 요소였습니다

호주의지도, 더위를보고 상상해보십시오 당신이있는 다른 지점과지도 위치 정보로 노출 수 얻기 인구를 분산 시키거나 보여줄 수도있다 태블릿, 데스크톱 또는 휴대 전화 인 경우 그래서 우리는 스트리밍 물건을 사용하기로 결정했습니다 BigQuery에는 있습니다 BigQuery에는 스트리밍 API가 있습니다

우리가 구현 한 방법은 기본적으로 매우 간단한 자바 스크립트 태그 단지 하나의 아주 간단한 서버 응용 프로그램에 pinging 그리고 누군가가 광고를 볼 때마다 또는 웹 사이트를 포위하는 것일 수도 있습니다 우리 서버를 핑합니다 이렇게 노출 수와 클릭 수가 직접적으로 발생했습니다 BigQuery로 스트리밍합니다

그리고 훨씬 더 쉽게 결과를 볼 수있게하기 위해서 돈을 저축하면 우리는 테이블 데코레이터를 사용하고 있습니다 그래서 우리는 쿼리하는 데이터의 임계 값을 줄일 수있었습니다 어쩌면 지난 10 분이 지났을 수도 있습니다 그래서 당신은 훨씬 더 큰 변화를 볼 수 있습니다 그런 다음 D3을 사용하여 대시 보드를 만들었습니다

D3는 그래프와 물건을 만들기위한 JavaScript 라이브러리입니다 그런 식으로 이것이 우리의 해결책이 보이는 방식입니다 매우 높은 수준 이전에 언급했듯이 요청이있었습니다

우리의 상처를 때렸다 App Engine에 앱을 배포합니다 그리고 우리는 매 요청마다 스트리밍을하고있었습니다 이 모든 로그 정보는 BigQuery에 직접 전달됩니다 여기 앱의 데모가 있습니다

그럼 어떻게 작동하는지 보여 드리겠습니다 그래서 당신이 볼 수있는 것은 각각의 점입니다 해당 지리적 영역에서 실제로 여러 번 노출됩니다 지리적 영역 그리고 당신은 우리가 실제로 어떻게 전체 금액, 총 노출 수, 호주에있는 주

또한 평균 노출 수도 증가하고 있습니다 분당 및 모바일, 태블릿, 및 온라인 온라인이 데스크톱이됩니다 이제 슬라이드로 돌아가 봅시다 다시 한 번 엔지니어가 두 명입니다

그것은 우리 둘 중 한 팀이었습니다 좋아, 정말 그렇게 재미있어 보였다 우리는 먼저이 모든 양의 데이터를 분석 할 수있었습니다 처리하고 BigQuery를 사용하여 즉시 통찰력을 얻으십시오 그리고이 스트리밍 일을 계속하십시오

그리고 사업이 실현되기 시작했습니다 BigQuery의 강력한 기능 그래서 그들은 데이터 과학자들과 교전했습니다 그리고 그들이 원하는 것은 그 분포를 바꾸는 것입니다 청중을 더 대표하는 샘플 세트에서, 매우 복잡한 통계적 사안들 우리는 그들에게 우리 데이터의 [부적절한] 것을주었습니다

그리고 그들은 떠나 갔고 시뮬레이션을했습니다 그런 것들 그리고 그들은 통계 모델로 돌아 왔습니다 매우 간단하고 페이지 반 정도, 간단한 수학 우리는 30 분의 1 시간 만에 완료했습니다

단 20 줄의 SQL이 있습니다 나는 거기에 있었다 고객 인 Telstra는 정말 행복했습니다 그러나 그들은 더 많은 것을 원했습니다 그래서 우리는 데이터 과학자들에게 더 많은 데이터를 제공했습니다

데이터 과학자들이 떠났고 시뮬레이션을 다시 실행했습니다 그리고 3 ~ 4 개월 후 그들은 미친 복잡한 일처럼, 이와 같은 것을 생각해 냈습니다 그래서 우리는 완전히 길을 잃었습니다 30 페이지의 사양, 작동, 여러 수준의 집계 이 모델이 작동하는 방식은 수십억 개의 행에 액세스하는 데 필요 그들이 얻고 자하는 더 깊은 통찰력을 끌어낼 수 있습니다

그리고 SQL로 작성하기에는 너무 복잡해졌습니다 그리고 우리가 실제로하려고했던 것들 중 하나 뭔가를 가질 수 있습니다 – 유지할 수있는 제품이 될 수 있습니다 그것을 생산으로 끌어 올리고 사용하십시오 그래서 우리는 단위 테스트를하고, 단위 테스트를 작성하고, 우리가 일하고 반복 할 수있는 무언가를 가질 수 있습니다

그리고 우리는 우리가 종류의지도가 필요하다는 것을 깨닫기 시작했습니다 이러한 종류의 문제를 해결하기 위해 분석 스타일을 줄이십시오 그 때가 Dataflow가 우리에게 왔을 때입니다 그래서 이것은 실제로 재미있는 이야기의 일부입니다 이 모든 재미있는 모험의 일부로 우리는 BigQuery와 함께 Google 엔지니어의 일부를 만났습니다

BigQuery에서 작동합니다 2015 년 초인 2014 년입니다 당시에는 데이터 흐름이 알파 상태 였고 초기 알파 액세스가있었습니다 그래서 그들은 우리에게 시험과 놀이를 시작하도록 권유했습니다 데이터 흐름

그리고 우리는 그것이 정말로, 정말로 컸다는 것을 알았습니다 우리가 필요로하는 것을 위해 물론 현재 Dataflow는 생산 중이며, 일반적으로 실행 가능합니다 다시 한번, 이미 Dataflow에 대해 많이 들었을 것입니다 나는 너에게 빨리 말할거야

그것은 엄청나게 병렬적이고 확장 가능합니다 따라서 복잡한 작업을 대규모로 실행할 수 있습니다 MapReduce보다 상위 레벨에 있음을 알 수 있습니다 기본적으로 MapReduce로하는 모든 것들, 당신이 높은 추상화 수준을 얻는다 고 상상해보십시오 훨씬 더 일반적인 작업을 통해 실제로 GROUP BY 또는 아마도 체인과 같은 일반적인 것들 단순한 변형 또는 그와 같은 것들을 함께 사용합니다

또한 서비스 파트와 SDK가 있습니다 ETL을 수행하는 데 적합합니다 그러나 그것은 또한 정말로, 정말로 좋습니다 복잡한 분석을하기 위해서 이것이 바로 우리가이 복잡한 작업을 수행하는 데 정말로 필요한 것입니다

이 복잡한 문제 매우 흥미로운 점은 완전히 관리된다는 것입니다 다시 말하면, 인프라에 대한 걱정은 없습니다 Hadoop을 설치할 필요가 없었습니다 또는 클러스터를 설치 또는 구성하거나 그와 같은 작업을 수행 할 수 있습니다

따라서 단지 두 명의 개발자, 두 명의 소프트웨어 엔지니어를 상상해보십시오 누가 그것을 실제로 시도 할 수 있는지 매우 비용 효율적입니다 그래서 Dataflow를 사용하여 모델을 구현했습니다 이것이 우리의 해결책이 어떻게 생겼는지입니다

그래서 우리는 여전히 그 일괄 처리면을 가지고있었습니다 DFP에서 로그를 가져 와서 BigQuery에 저장합니다 스트리밍 측면을 이용하면, BigQuery에서 모든 데이터를 가져 왔습니다 우리는 데이터 흐름을 사용하여 통계 모델을 구현합니다 모든 결과를 다시 BigQuery에 저장하십시오

그리고 나서 우리는 드디어 이러한 통찰력을 얻을 수있었습니다 우리가 찾고 있었어 불행히도 나는 정말로 말할 수 없다 당신이 NDA에 속해 있기 때문에 당신은이 모델에 대해 너무 많이 생각합니다 그래서 저는 여러분에게 더 많은 것을 말하고 싶습니다

그러나 그것은 그것의 현실입니다 그리고 비용면에서 게임을 상상해보십시오 큰 클러스터를 관리하고, 사람들을 인프라 또는 어쩌면 당신을 돕는 운영 체제를 설치하거나 Hadoop 또는 기타 설치 그런 식으로 아마도 당신은 아마 그보다 더 낮은 것을 얻을 수 없습니다 나도 모르겠다

$ 30k 또는 한달에 뭔가 우리에게는 월 700 달러 밖에되지 않았습니다 그리고 우리는 약 50 테라 바이트를 처리하고있었습니다 이제 우리가 배운 몇 가지 데이터 흐름 팁으로 이동해 봅시다 우리가 데이터 흐름을 사용할 때

그래서 우리는 그것이 좋은 생각이 아니라는 것을 발견했습니다 하려고하면 길다는 것을 알아야합니다 변환 작업을 할 때 작업을 실행합니다 여러분이 아시다시피, 변형은 실제로 네가하는 원자력 작전 당신은 입력 데이터를 얻습니다

데이터로 무언가를 한 다음 결과를 출력합니다 그리고 이것이 여러 번 실행된다는 것을 알아야합니다 그리고 그것은 귀하의 데이터와 함께 확장됩니다 수십억 개의 행이 있고 BigQuery에서 읽으려고하면 수십억 개의 행이 있습니다 당신은 실제로 십 억 시간을 할 것입니다

따라서 네트워크에 가서 무언가를하려고한다면, 그것은 좋은 생각이 될 수 없습니다 꽤 느리게 진행될 것입니다 모든 것을 기억 속에 두는 것은 불가능합니다 따라서 2 테라 바이트를 처리하려는 경우, 기억에 넣으려고하지 마라 아마도 그 데이터 일 것입니다

전혀 다른 배경에서 온 과학자들 하고 있었다 우리 모두에게 더 많은 것을 받아들이는 것이 어려웠습니다 분산 방식 그리고 Dataflow에는 다음과 같은 PCollections가 있습니다 그 면모를 위해 정말로 봉사하십시오

그리고 당신이 알아야 할 또 다른 것은 바로 가기 키입니다 바로 가기 키는 매우 일반적인 작업에서 온 것입니다 예를 들어, 키별로 그룹화하는 Dataflow를 사용하면 너는 열쇠가있어 그리고 그 키는 몇 가지 실제 값을 가질 수 있습니다 수백만 개와 같은 키와 일치합니다

따라서 그래프를보고 Compute 인스턴스가 보이면 203을 실행하면 CPU가 매우 높을 수 있습니다 그리고 다른 이들은 유휴 상태입니다 즉, 단축키가 있음을 의미합니다 그리고 그것을위한 해결책이 있습니다 나는 나중에 그것에 대해서 이야기 할 것입니다

데이터 흐름으로 작업 할 때 좋은 점 지역 주자를 이용하는 것입니다 따라서 Dataflow에는 여러 주자가 있습니다 함께 일하기 시작할 때 – 언제 우리는 물론이 모델을 개발 중입니다 작은 데이터 세트로 시작하고 프로그램 작성 그것을 테스트하고 작은 반복을 거친다 그러면 실제로 GCP 러너로 이동할 수 있습니다

핫키를 다루는 좋은 방법입니다 예를 들어 집계와 같은 작업을 수행해야하는 경우 이러한 대규모 데이터 세트를 통해 실제로 결합 기능을 사용할 수 있습니다 따라서 결합 기능을 통해 기본적으로 배포 할 수 있습니다 이러한 값은 작업자 노드에 대한 여러 개의 키에 대해 가지고 있습니다 그리고 프로그램의 의미를 Dataflow에 보여줍니다

구현하려는 것입니다 그래서 그들은 여러 단계를 거칩니다 기본적으로 누적기를 초기화합니다 누적기를 정의하면 예를 들어 합계와 같은 것을 할 것입니다 값

그리고 나서 당신은 그 기능을 가질 필요가 있습니다 각 요소를 축약기에 추가합니다 물론 병합해야합니다 그런 다음 다시 병합 할 수 있습니다 그리고 출력을 추출합니다

그리고 이것이 코드에서 보이는 것입니다 결합 기능에서 당신은 [INAUDIBLE]입니다 특정 입력, 누적 기 유형 및 출력 유형 그리고 초기화 기능, 추가 입력, 누적 합산 기 및 출력 추출 그리고 그것을 사용하고 싶을 때, 그냥 기본적으로 perKey 결합을 사용하여 인스턴스를 작성합니다

귀하의 결합 기능 복합 변환 – 이것은 또 다른 변환입니다 우리는 정말 유용하다고 생각했습니다 제가 말씀 드렸듯이이 모델은 꽤 복잡합니다 여러 집계, 여러 수준, 조인과 같은 것들

우리가 실제로 모든 것을 구현하는 것을 끝내면, 그것은 큰 난장판이었고, 많은 노트가 연결되었습니다 서로의, 회사 미친 따라서 복합 변환을 사용하면 관련 작업을 그룹화합니다 그리고 당신은 소화하기가 훨씬 쉬운 것을 가질 수 있습니다 그래서 구현하는 방법은이 PTransform 클래스를 확장하는 것입니다

입력 유형, 출력 유형을 지정하십시오 그리고 두 변환을 연결합니다 예를 들어 여기서 우리는 이 경우 PCollection에 넣는 초기 변환 그런 다음 두 번째 변형을 적용합니다 그리고 결과를 반환합니다

그리고 우리는 그런 식으로갔습니다 그리고 이것은 전체 빅 모델의 일부분에 지나지 않습니다 단 하나의 [INAUDIBLE] 그리고 얼마나 간단하게 볼 수 있습니다 다시 한 번 말씀 드리지만, 팀 엔지니어가 두 명에 불과했습니다

우리가이 큰 문제를 다루려고 애쓰는 것입니다 그래서 지금 우리가하는 일은 우리가 일괄 처리 모드에서 이동하려고하는 것입니다 왜냐하면이 모델은 기본적으로 배치 모드로 설계 되었기 때문입니다 자연스러운 진화로 우리는 스트리밍 모드에있게 될 것입니다 따라서 우리의 데이터 과학자들은 더 많은 데이터를 가져 왔습니다

그리고 그들은 그들의 시뮬레이션과 물건을 움직이고있다 그렇게해서 우리는 실제로 다음 단계로 이동할 수 있습니다 결론적으로 텔스트라는 이 모든 양의 데이터를 분석하려고하는 많은 문제 그들이 가진 것이었다 BigQuery를 사용하여 우리는 마침내 유용한 통찰력을 추출 할 수있게 해줌 이 모든 양의 데이터 우리가이 매우 복잡한 모델을 받았을 때, 데이터 흐름을 통해 실제로 구현할 수 있습니다

유지 보수가 가능하고 반복 할 수 있습니다 GCP를 사용하면 매우 강력하고 확장 성이 뛰어납니다 인프라 비용을 비교하여 실제로 자체 인프라를 구축하거나 임대하기 Telstra의 인프라 그리고 우리는 큰 팀이 정말로 필요하지 않았습니다 그래서 그게 전부입니다

고맙습니다 [박수 갈채]

Election 2016: The big data showdown – Google I/O 2016

호프만 호파 (FELIPE HOFFA) : 선거 데이터로 무엇을 할 수 있습니까? 아주 큰 과정이 진행되고 있습니다 그리고 나는 이것을 공유하는 것에 대해 정말로 열정적입니다

나는 또한 요르단과 함께 할 수있어서 기쁘다 Jordan은 BigQuery 팀 창립 멤버 중 하나입니다 JORDAN TIGANI : 아니, 나는 생각한다 이해하는 것이 정말 중요합니다 정부와 선거에서 벌어지고있는 일

그리고 저는 우리가 내가하는 기술을 사용할 수있다 사람들이이 중요한 일들을 할 수있게 해줍니다 그래서 사람들이 내 기술을 사용하고 있다는 사실에 흥분하지 않았습니다 나는 사람들이 흥분하고있다 사물을 사용하기 위해 그것을 사용할 수 있어야한다

그것은 세상을 바꿀 것입니다 호프만 호프 : 그럼이 도구들을 가져 가세요 그들을 당신의 회사에 데려 오십시오 당신의 도전이 무엇이든 그들을 데려 오십시오 그리고 그것들을 잘 사용하십시오

시민의 목적으로 사용하십시오 그럼 미국의 선거에서 기술을 간단히 살펴 봅시다 조디안 티 가니 : 고마워, 펠리페 그래서 2004 년에, 이것은 정말로 최초의 미국 대통령 선거였습니다 어떤 기술이 큰 영향을 미쳤습니다

하워드 딘을 기억하는지 모르겠습니다 Howard Dean은 작은주의 주지사였습니다 아주 잘 알려져 있지 않습니다 그러나 그는 엄청난 액수를 챙기고있었습니다 작은 온라인 기부

그리고 이런 종류의 사람들이 깨어났다 선거를 위해 인터넷을 사용하는 아이디어까지 이제 Howard Dean 대 Howard Dean이 있습니다 하워드 딘도 일종의 사망 했거든 선거에 기술에 의해

1 월 19 일, 그는 연설을했다 예비 선거 중 하나 후에 그리고 그는 이런 종류의 고음을 내뿜습니다 그리고이 두 초 동안 비명을 질렀다 반복 재생 된 바이러스 성 비디오가되었습니다 네트워크와 YouTube에서 그리고 이것은 정말로 그를 만들었습니다

후보자보다 더 나쁜 것은 없다 어리석은 짓을했다 그리고 이런 종류의 캠페인은 그의 캠페인을 어뢰했습니다 그래서 우리는 또한 긍정적 측면과 부정 측면을 봅니다 선거 기술의 이제 2012 년으로 금식하면 오바마 대 롬니 (Romney)다고 주장 할 수있다

그리고 당신은 오바마가 승리했다고 주장 할 수 있습니다 그러나 실제로 큰 데이터 괴상한 선거입니다 각 후보자의 캠페인 팀에는 큰 데이터 분석 시스템이있었습니다 고래 이름을 따서 지었다 그리고 오바마 팀의 고래가 롬니를 분쇄 한 것으로 밝혀졌습니다

그들은 그림 같은 것을 할 수있는 소프트웨어를 가지고있었습니다 투표소에 사람들을 데려 오는 방법, 미디어를 구입하고 지출을 줄이는 방법, 이러한 모든 분야의 일종 기본적으로 롬니 측에서는 선거일에, 그것은 일종의 fizzled 그래서 그것은 정말 일종의 승리였습니다 당신이 좋아하는 후보자와 상관없이, 그것은 원했던 괴상한 팀을위한 굉장한 승리이었다

호프만 호파 : 그래서 우리가가는거야 오늘하는 일은 아주 중요합니다 다른 클린턴이 있었을 때로 돌아갈 수 있습니다 대통령으로 선출됐다 인터넷은 없었습니다

그런 다음 부시에게 인터넷 광고를 보았습니다 그런 다음 오바마는 첫 번째 A / B 테스트를 시작했습니다 정치 캠페인에 그리고 지금, 4 년 전 우리는 고래와 싸웠습니다 그리고 오늘 저는 요르단에 몇 가지 도전을했습니다

그리고 우리는 꽤 흥미로운 큰 데이터를 사용할 것입니다 세트 트위터를 안다면, 우리는 그들의 데이터를 사용할 수있었습니다 우리는 이것을 실시간으로 섭취하고 있습니다 JORDAN TIGANI : 연방 선거 운동도하고 있습니다

데이터 세트 미국 정부는 모든 캠페인 기부 웹 사이트를 운영하고 있습니다 후보자들에게 주어지며 또한 그들이 무엇인지 돈을 쓰는 중 호프만 호파 (FELIPE HOFFA) : 우리는 무엇을 배울 수 있습니까? 다음으로이 데이터 세트는 조금 비싸다 그래서 우리는 OpenSecret에 친구들을두고 있습니다

이 데이터를 가져간 사람들은 그것을 정리했습니다 개방형 데이터 라이센스 하에서 사용할 수 있도록했습니다 그래서 우리는 그것을 사용할 것입니다 JORDAN TIGANI : 우리는 또한 모든 Reddit 의견을 갖고 있습니다 2007 년 이래로, 덜 공식적인 일종의, 그러나 아마도 그것은 무엇인지에 대한 계몽적인 비전 일 것입니다

후보자와 함께 일어나고 FELIPE HOFFA : 네, Jason Baumgardner에게 감사드립니다 이 의견을 수집하고 사용할 수있게되었습니다 그리고 우리는 거기서 재미있게 지낼 것입니다 Wikipedia, 많은 페이지 뷰입니다

한 달에 약 50 억 페이지 뷰 우리는 무엇을 볼 수 있을까요? 그것은 오늘날 도전의 일부입니다 JORDAN TIGANI : 그리고 이것은 하나의 테이블 일뿐입니다 그건 절반 테라 바이트 야 우리는 기본적으로 – 이것은 단지 한달 가치입니다

그리고 우리는 그 이상을 상당히 분석 할 것입니다 펠리페 호파 (FELIPE HOFFA) : 겔트 (GDELT), 세계의 모든 뉴스, 모든 것 그 일이 일어나고있다, Kalev Leetaru가 수집 한 것 30 년 전 ~ 15 분 전, 3 억 개 이상의 이벤트 그것은 우리 테이블에도 있습니다 JORDAN TIGANI : 알았어, 우리가 시작하기 전에, 나는 작은 사설을 제공하고 싶다 우리는 많은 시각화를 보여줄 것입니다

우리는 많은 양의 데이터를 보여줄 것입니다 우리, 펠리페와 나는 당파가 될지 모른다 하지만 여기서 당파를 보여 주려고하지는 않습니다 우리는 단지 데이터를 보여 주려고합니다 하지만 너희들은 분명히 아이디어를 가지고있다

당신이 보여주고 싶은 것 우리는 영감을 얻으려고 노력하고 있습니다 당신들은 우리가하고있는 일의 유형을 취할 수 있습니다 그런 다음 설득력있는 논증을하십시오 그러나 우리는 데이터가 그 자체로 말할 수있게하려고 노력할 것입니다

오늘 호프만 호파 : 네 누군가 정치에 대해 말하지 말라고했습니다 저는 정치에 관해 데이터를 말할 것이라고 생각합니다 시작하자

돈으로 시작합시다 JORDAN TIGANI : 좋아 보인다 호프만 호파 (FELIPE HOFFA) : 오늘 어떤 도구를 사용할 것입니까? JORDAN TIGANI : Google BigQuery에서 작업합니다 BigQuery가 정말 잘 알고 있습니다 BigQuery는 선거 데이터 분석에 적합하다고 생각합니다

그러나 Google BigQuery에 익숙하지 않은 경우, 그것은 당신이하지 않는 큰 데이터 SQL 쿼리 엔진입니다 모든 인스턴스를 시작해야합니다 그것은 단지 모든 데이터가 있습니다 그리고 그것에 대해 평가 받고있는 것들 중 하나는, 우리는 오늘 활용할 것입니다 그것이 하나의 글로벌 네임 스페이스라는 것입니다

따라서 두 테이블을 다른 테이블과 조인 할 수 있습니다 FELIPE HOFFA : 정말로 빠릅니다 다른 도구와 연결됩니다 우리는 Re : dash로 시작하여 시각화 그래서 당신에 대한 나의 첫 번째 도전, 조던, 얼마나 많은 돈을 보여줄 수 있니? 올해 후보자가 늘어 났습니까? JORDAN TIGANI : 알았어, 그럼

첫 번째 시각화 I 가지고 있고, Re : dash를 사용하려고합니다 그리고 OpenSecrets 개인 캠페인을 살펴 보겠습니다 여기에 기부 데이터 세트 그리고 우리는 후보자들과 합류하고 있습니다 우리는 신경 쓰지 않는 코드로 필터링하고 있습니다

그리고 이번에는 많은 후보자가 있기 때문에, 우리는 후보자들만 필터링하려고합니다 적어도 8,000 건의 기부금과 5,000 건 이상의 기부금이 있습니다 한 달 안에 그래서 나는 그 쿼리를 실행했다 8 초가 걸렸습니다

여기에 결과가 있습니다 그러나 우리는 멋진 시각화를 만들고 싶습니다 그래서 Re : dash 시각화 편집기를 열었습니다 우리는 x 칼럼 월에 가로 막 대형 차트를 사용할 수 있습니다 그리고 우리가 원하는 금액의 y 칼럼

그런 다음 수신자별로 그룹화합니다 그리고 여기 있습니다 그래서 우리는 2015 년 초에, 힐러리 클린턴이 가장 많이 얻은 것이었다 기부 그리고 나서 3 월로 빨리 감기고, 버니 샌더스는 실제로 힐러리를 가려 냈습니다

기부금의 달러 금액 그리고 우리는 테드 크루즈가 증가하고있는 것을 봅니다 그리고 주목할만한 흥미로운 사실 ​​하나 도널드 트럼프가 여기 작은 꼬마 선이야 Donald Trump는 본질적으로 자신의 선거에 자금을 지원했습니다 그래서 그는 기부의 방식을 많이 바꾸지 않았습니다

호파 호파 : 지금까지 조던 티 가니 : 지금까지 호피파 호파 :하지만 지금 우리가 과거로 뛰어 가고 싶다면, 우리가 무슨 일이 있었는지보고 싶다면 하워드 딘, 당신이 오늘 일찍 언급 한 이야기, 이 데이터를 어떻게로드합니까? BigQuery로 가져 오는 방법은 무엇입니까? JORDAN TIGANI : 물론 OpenSecrets 데이터 우리가 공개 할 수 있었던 것은 단지 2016 년이었습니다 그래서 우리가 역사적인 선거를보고 싶다면, 우리는 우리가 가지고있는 데이터를 사용해야합니다 연방 선거위원회 (Federal Election Commission)에서 다운로드 받았다

그리고 이것은 그들의 다운로드 페이지가 보이는 것입니다 그리고 그 데이터를 다운로드했습니다 그리고 Google Cloud Storage에 업로드했습니다 BigQuery에서 기능을 사용하고 있습니다 연합 된 테이블이라고 불리는데, 이는 테이블이 BigQuery에서 살기

외부 데이터 소스에 있습니다 이 경우 Cloud Storage입니다 그래서 그것은 모든 개인 기부금을 다룰 것입니다 CSV로 읽을 것입니다 그리고 약간 이상한 형식입니다

그리고 약간 이상한 포맷이기 때문에, 기부금은 기부자를 누구에게 말하지 않습니다 위원회의 코드를 알려줍니다 너는에 기부하고있어 그래서 당신은위원회에 반대해야합니다 그리고위원회에 가입해야합니다

후보자와 그래서 나는 그 일을 잔뜩 했어 그 내용을 요약 표에 기록했습니다 이 요약 표는 돈을 준 후보자를 보여주고, 그들이 준 돈 그리고 그 테이블은 2와 1/2 기가 바이트입니다 그리고 그것은 1980 년부터 가장 많은 것까지 모든 것입니다

최근 선거 이제 Howard Dean의 순간을 살펴 보겠습니다 그래서 요약 표를 살펴 보겠습니다 나는 그것을 지었다 그리고 우리는 하워드 후보를 찾을 것입니다

딘 (Dan)과 존 케리 (John Kerry) 당시 두 민주당 선두 주자였습니다 우리가 사용할 시간대 2003 년 말에서 2004 년 초 사이입니다 그리고 저는이 시각화를 만드는 것을 보여주지 않을 것입니다 왜냐하면 그것은 단지, 본질적으로, 우리를 제외하고는 마지막 것 막 대형 차트 대신 선형 차트를 선택하십시오 그래서 당신은 볼 수 있습니다, 이것은 주당 기부금의 숫자입니다

하워드 딘은 정말로 그것을 분쇄하고 있습니다 당신은 12 월 31 일처럼 모두가 기부금을 받고, 그래서 그들은 내년에 더 많은 것을 줄 수 있습니다 그러나 1 월 19 일 여기, 딘 비명의 날, 흥미 롭군 그의 지지자들은 여전히 ​​그를지지했다 그 후 그는 여전히 기부를하고있었습니다

그러나 이것은 그의 상대에게 정말로 줬다 탄약이 많을수록 그는 취약하다는 것을 깨달았습니다 그리고 사람들은 깨닫는다, 헤이, 나는 가고있다 이 다른 녀석에게주는거야 호프만 호프 와우

그것이 당신이 과거로 뛰어 갈 수있는 방법입니다 어느 순간으로 가십시오 여기에 많은 SQL이 있습니다 나는 누가 SQL을 여기에서 알고 있는지 모른다 SQL? 예, 제 종류의 사람들

그러나 모두는 아닙니다 어떤 도구를 사용 하시겠습니까? 이 동일한 데이터를 사용하여 다른 방법으로 탐색하려면, SQL의 라인없이? JORDAN TIGANI : 보자 그래서 이것은 Tableau입니다 Tableau는 비즈니스 인텔리전스 시각화입니다 수단

또한 Tableau에는 BigQuery가 기본적으로 지원됩니다 따라서 Tableau의 BigQuery에 연결하겠습니다 그리고 저는 연결하려고합니다 그래서 저는 제 프로젝트를 봅니다 캠페인 자금 지원 데이터를 작성하십시오

그리고이 요약 테이블을 사용할 것입니다 그것을 여기로 드래그하십시오 Tableau는 스키마, 카디널리티, 어떤 유형의 필드입니까? 그리고 나서 이것으로 새로운 시각화를 만들 수 있습니다 그래서 드래그 앤 드롭 만하면됩니다 그래서 나는 행에 양을 떨어 뜨릴거야

우리는 행을보고 있기 때문에 그리고 물론, 그것은별로 흥미롭지 않습니다 그것은 단지 모든 행을 요약하기 때문입니다 그러나 열을 후보 제휴로 사용합시다 그래서 우리는 얼마나 많은 돈이 주어 졌는지 알 수 있습니다

다양한 정당에 물론 많은 정당들이 있습니다 그러나 미국에서는 민주당과 공화당 기부금을 모두 가져 가라 그리고 이것은 정말로 혼란 스럽습니다 왜냐하면

오, 여기 있습니다 더 좋아 보인다 그래서 이것은 시각화입니다

나는 기본적으로 같은 테이블을 가져 갔다 그냥 좀 더 드래그 앤 드롭을 했어 내가 여기서하지 않을거야 그러나 이것은 돈의 양을 보여주고있다 주에 의해 기부되는 공화당 원에게 더 많은 것을 주거나 민주당 원에게 더 많이 줘

실제로 우리는 매년 갈 수 있습니다 2008 년을 살펴 봅시다 어서 2008 년, 오바마 후보의 첫 번째 후보에 올 것입니다 해안이 매우 파랗다는 것을 알 수 있습니다

나라의 중심은 빨간색입니다 그들은 공화당에게 더 많은 것을주고 있습니다 그러나 전국에 파란 색이 깔려 있습니다 그런 다음 재선을 보면, 그 일들은 굳어졌고, 정말로, 나라의 중심에있다 그리고 기본적으로, 그들은 매우 무겁게주고 있습니다

공화당 쪽 흥미로운 호프 2016 년까지 우리 후보자는 지금까지 어떻게하고 있습니까? 원색 조던 티 가니 : 좋아, 글쎄, 나는 사람들이 예비 선거를 따르고있다 그러나 그들은 많이 변하고 있습니다

이 예비 선거 무리가 있습니다 Google 스프레드 시트를 각 1 차 수상자와 득표 수를가집니다 각 기본에 대한 위임자 BigQuery의 기능을 사용하면 이것은 또한 연합 테이블입니다 -하지만 우리는 이 Google 스프레드 시트가 뒷받침하는 표가 여기에 있습니다 그러면 형식이 Google 스프레드 시트임을 알 수 있습니다

그래서 누가 승리하고 있는지 조회 할 수 있습니다 힐러리 클린턴 (Hillary Clinton)이 가장 많은 표를 얻었고 그 뒤를 따랐다 도널드 트럼프가 뒤를이었다 하지만 이것에 대한 멋진 것들 중 하나 실시간으로 수정할 수 있습니까? 그래서 펠리페를위한 투표함을 채우자 호프피 호파 : 고마워요

다들 감사 해요 [웃음] JORDAN TIGANI :이 쿼리를 다시 실행하십시오 때때로 이러한 쿼리는 몇 초가 걸립니다 빠른 액세스를 위해 실제로 최적화되지 않았기 때문입니다 그러나 헤이! [박수 갈채] 호프만 호파 : 네

BigQuery를 사용하는 사람들은 이것이 얼마나 멋진 지 알고 있습니다 그렇습니다, 그래서 그것은 굉장한 새로운 특징입니다 그것을 즐기십시오 이제 점들을 연결해 봅시다 이 후보자들은 많은 돈을 모으고 있습니다

그들은 돈을 쓰고 있습니다 그들은 투표를하고 있습니다, 대의원 이 중 누가 가장 효율적입니까? 조던 티 가니 : 미안, 나는 기억하고있다 우리가 이것에 대한 질문을한다면 오 그래, 우리는 이것에 대한 질문을 가지고있다

이 쿼리는 OpenSecrets를 통해 작동합니다 데이터 세트를 다시 설정하십시오 그리고 우리는 단지 기부액을 합산하려고합니다 그러나 우리는 그것에 반대 할 것입니다 기본 결과 테이블로 이동하십시오

그래서 우리는이 사람들이 얼마나 많은 돈을 지출하고 있는지 볼 수 있습니다 이것은 실제로 사물의 지출 측면입니다 – 투표 당 그들이 얻는 것 그래서 우리는 벤 카슨이 그는 선거에있었습니다 그는 투표 당 최대 금액을 지출하고 있었고, 힐러리 클린턴이 뒤를이었다 그리고 나머지 주요 후보들 중, Bernie Sanders가 가장 효율적입니다

도널드 트럼프가 도널드 트럼프를 데려 오기 때문에 실제로 그의 캠페인을 실제로 운영하지 않습니다 기부금 기준 FELIPE HOFFA : 여기 흥미로운 슈퍼 팀이 있습니다 우리가 이러한 효율을 조사하기 시작할 때입니다 왜 우리가 궁금해하기 시작하는 것입니까? 한 후보가 다른 후보보다 어떻게 효율적일 수 있습니까? 결과를 이끌어 낸 것은 무엇입니까? 최소한 옛날에는 TV를 말할 수있었습니다

각 후보자의 멘션 수입니다 GDELT가 측정 한 지금까지 TV에 올라 있습니다 인터넷 아카이브를 사용합니다 그리고 도널드 트럼프가 TV에서 더 많이 언급됩니다 그것은 투표를하는 아주 좋은 방법입니다

많은 돈을 들이지 않고 클린턴, 샌더스, 그리고 다른 모든 사람들 여기서 흥미로운 점은, TV는 트럼프를 위해 일하고 있습니다 하지만 샌더스는 점점 더 효율적이지 않습니다 많은 TV가 언급합니다

그리고 왜 우리는 궁금해 할 것입니다 바로 이것이 바로 우리의 다음 도전 과제입니다 구식 미디어와 새 미디어를 비교합시다 우리는 데이터 흐름과 같은 새로운 도구를 통합 할 것입니다 JORDAN TIGANI : Google 클라우드 데이터 흐름 배치 및 스트리밍 데이터 처리 시스템, 일종의 MapReduce와 비슷하지만 조작 할 수 있습니다

훨씬 높은 수준 그리고 우리는 데이터 흐름을 사용하여 Twitter 데이터를 가져 왔습니다 우리가 가져올거야 우리는 데이터를 변형하고 있습니다 우리는 pub / sub와 BigQuery 테이블에이를 쓰고 있습니다

호프만 호파 : 네 JORDAN TIGANI : 그리고 나서 우리는 또한 데이터를 가져올 것입니다 pub / sub에서 가져 와서 Firebase에 넣습니다 그리고 여러분은 Firebase에 대해 많이 들었을 것입니다 이번 주에는 너무 자세히 설명 할 필요가 없습니다

FELIPE HOFFA : 그래, 좋아, 옛날 미디어부터 시작하자 세계의 모든 뉴스 인 GDELT를 살펴 보겠습니다 전 세계 언론의 이야기는 몇 세입니까? 미국 후보자들에 대해서? JORDAN TIGANI : 좋습니다 그래서 우리는 마지막 시각화를 사용할 것입니다 펠리페는 텔레비전 효율성을 보여주었습니다

GDELT 데이터 세트를 사용했습니다 BigQuery에 GDELT 데이터 세트가 있습니다 그러나 GDELT 데이터 세트에는 많은 양의 데이터가 있습니다 그것은 모든 미디어 기사의 감정적 인 내용을 가지고 있습니다 언급 된 모든 사람들이있다

그것 안에 그리고 기사 내의 위치 그들은 언급했다 그러나 SQL을 사용하여 쿼리하는 것은 약간 어려울 수 있습니다 여기에 다른 BigQuery 기능을 사용하고 있습니다 소위 사용자 정의 함수 사용자 정의 함수를 사용하면 JavaScript 코드를 작성할 수 있습니다

쿼리 내에서 실행되도록하십시오 그래서 제가하고있는 것은, 예를 들어, 저는 그림을 그리려하고 있습니다 정치 후보자를 언급하는 기사의 경우 하나는 정말로 그들이 정말로 말하고있는 것입니다 클린턴에 관한 많은 기사들이 버니에 대해서도 이야기하기 때문입니다 그러나이 기사는 클린턴에 관한 것이다

그래서 우리는 이들 중 일부를 분리하는 코드를 가지고 있습니다 약 200 줄의 JavaScript 코드입니다 그런 다음 BigQuery에서 직접 실행할 수 있습니다 그래서 이것을 사용하는 뷰를 만들었습니다 그리고 미안

죄송합니다 아, 세부 사항, 우리가 간다 그리고 쿼리는 기본적으로 소스 데이터를 피드합니다 이것은 원시 GDELT 테이블입니다 그리고 다시 Re : dash로 전환 할 수 있습니다

그리고이 쿼리를 실행할 수 있습니다 그리고이 쿼리는 보통 약 1 분 정도 걸립니다 나는 오늘 그것이 빠르길 바랄거야 그리고 오 호프 로파 : 우

오, 우리는 [부적절한] 것이 있습니다 JORDAN TIGANI : 좋습니다 마지막 시각화로 건너 뛸 것입니다 그러나 나는 무엇을 보여줄 것입니다, 나는 내가 뭔가를 타자해야만한다고 생각합니다 상자에 넣고 그것을 망 쳤어

하지만 우리는 감정적 인 내용을 보여줄 것입니다 이 기사의 그래서 이것은 긍정적이거나 부정적 일 수 있습니다 주요 정치 후보자들에게 – 또는 미안하지만, 힐러리 클린턴과 도널드 트럼프에게 그리고 우리는 그것을 국가별로 분리 할 것입니다

그래서 우리는 어디에 기반을 둔 가입을합니까? 미디어 소스가 나온다 그리고 우리는 그것을 그 기사에 매핑 할 것입니다 그래서 우리가 볼 수있는 것은 – 그래서 여기에 결과가 있습니다 기사를 쓰고있는 나라들 중 미국 후보자들에 대한 언급은 긍정적입니다 네거티브 톤 대

우리가 알아야 할 한 가지는, 우리는 기본적으로 평균을 조금 옮겼다 전반적으로 전체가 평균이므로 두 후보자에 대해서는 부정적이다 그래서 우리는 일종의 0을 재설정하고 있습니다 그러나 가장 긍정적 인 것은 터키입니다 나는 터키가 정말로 힐러리 클린턴을 좋아한다고 생각한다

가장 큰 부정적인면은 스위스입니다 스위스 인은 큰 도널드 트럼프 팬이 아니다 어쩌면 그는 은행을 이용하지 않을 수도 있습니다 [웃음] JORDAN TIGANI : 그래서 당신은 물어볼지도 모르지만, 음, 지도에 이걸 보여줄 수 있니? 아마 펠리페가 내게 그걸 물으려 고했을지도 모른다 그러나 우리는 그렇게 할 필요가 없습니다

누군가 이미 했어 BigQuery를 많이 해본 사람 [INAUDIBLE] 질의, 그리고 우리가 과거에 작업해온 것들, 그는 이것을 CartoDB에 꾸몄다 그리고 이것은지도 버전의 일종입니다 어느 나라가 긍정적이고 부정적인가? 힐러리 클린턴에 대해서 Donald Trump도 마찬가지입니다

호프만 호프 러시아 : 러시아는 정말로 긍정적 인 분위기를 가지고있다 그 기사들 요르단 티가니 : 우크라이나도 그렇습니다 호프피 호파 : 네 그래서 전세계 미디어를 검색하는 것은 정말 멋지다

그 매체의 출처가 어디서 왔는지, 그것을 결합하고, 음색을보고, 거기에서 일어난 일을 분석하기 시작하십시오 버니로 돌아 가자 버니에 대해 처음 알게 된 곳은 어디입니까? TV 였어? 그것은 미디어였습니까? Reddit 이었나요? 조던 티 가니 : 나는 소셜 미디어가 픽업 된 것처럼 느낍니다 주류 언론에 앞서 버니 샌더스에게 FELIPE HOFFA : 데이터로 어떻게 그걸 보여줄 수 있습니까? JORDAN TIGANI : 좋습니다

글쎄, 이것 좀 살펴 보자 이것은 여러 데이터를 결합하는 쿼리입니다 함께 소스 그래서 이것은 GDELT 데이터 세트를 결합 할 것입니다 이것은 이전에 만든 시각이었습니다

우리는 또한 모든 Reddit 주석을 살펴볼 것입니다 그래서 우리는 Reddit에서 후보자 인기도를 살펴볼 것입니다 코멘트 그런 다음 위키피디아 페이지 뷰를 살펴 보겠습니다 그래서 사람들은 후보자의 웹 페이지를 많이보고 있었을 것입니다

그리고 언제 볼 수 있는지보십시오 그리고 나서 우리는 평균 후행을 계산하고 있습니다 그래서 숫자가 너무 많이 위아래로 튀지 않습니다 아름다운 어쩌면이 페이지를 새로 고칠 수 있습니다

이 쿼리가 얼마나 큰지에 대한 아이디어를 주기만하면됩니까? 이 쿼리는 524 테라 바이트입니다 FELIPE HOFFA : 이것이 바로 데이터입니다 JORDAN TIGANI : 많은 데이터가 있습니다 약 1 분이 걸립니다

그리고 많은 것들이 있습니다 즉, 우리는 사용자 정의 함수를 실행해야합니다 GDELT에서 수십억 개 이상의 항목이 있습니다 우리는 이 여러 데이터 소스를 다른 장소에서 가져옵니다 시각화는 다음과 같습니다

그래서 우리는 실제로, 주류 미디어와 Reddit Wikipedia는 모두 Bernie 이야기에서 실제로 선택되었습니다 거의 같은 시간에 따라서 GDELT는 주류 미디어를위한 프록시입니다 아마이 최고점은 조금 더 높았다 Reddit 및 Wikipedia 용 어쩌면 이것은 소셜 미디어가 Bernie Sanders에게 더 헌신적 인 그리고 확실히,이 Reddit 라인 우리가 가진 대부분의 기간 동안 더 높은 상태를 유지하고 있습니다

호프만 호파 : 네 우리가 레딧을 언급했을 때 사람들은 정말로 즐겁게 보입니다 예? Reddit에서 사람들이 말하는 것에 대해 살펴 보겠습니다 클린턴, 샌더스, 트럼프에 대해 말하는거야? JORDAN TIGANI : 좋습니다 그래서 우리는 기본적으로 Reddit의 모든 주석을 살펴볼 것입니다

얼마나 많은 저자가 논평하고 있는지 파악하는 쿼리를 실행합니다 이 후보들에 대해서 그리고 쿼리가 그다지 재미 있지는 않습니다 우리가 단지 도날드 트럼프, 힐러리 클린턴, 버니 샌더스 그러면 타임 라인이 어떻게 생겼는지 알 수 있습니다 호프만 호프 : 그래서 우리는 거기에서 볼 수 있습니다 버니 샌더스 (Bernie Sanders)에 대해 트럼프 (Trump)보다 더 많은 저자가있다

클린턴보다 그리고 그것은 Reddit이가는 방법입니다 JORDAN TIGANI : 그래서 모든 사람들이 Bernie라는 정식 명칭을 사용하지는 않습니다 샌더스 호프만 호프 : 좋은 질문입니다

요르단 타이가니 : 그래서 그들은 단지 버니, 또는 힐러리, 아니면 그냥 트럼프라고 생각해 도널드 트럼프의 서브 레딧 도널드라는 이름이 붙어서 Donald를 더 자주 불렀습니다 BigQuery에서 이것에 대한 멋진 점 중 하나 마음이 바뀌기 쉽습니다 다른 쿼리를 실행하는 것은 쉽습니다 그리고 희망적으로 이것은 오늘 빠르게 될 것입니다

FELIPE HOFFA : 분석하는데 얼마나 걸리나요? Reddit의 모든 의견은 무엇입니까? JORDAN TIGANI : 그래서 몇 초 밖에 걸리지 않습니다 그러나– 호파 호파 : 우리 네트워크는 얼마나 빠릅니까? JORDAN TIGANI : 저는 오늘 네트워크에서 그것을 비난하지 않을 것입니다 나는 이것을 소유 할 것이다 다음 5시에 끝나지 않으면 되돌릴거야 초

둘 우린 다른 곳으로 뛰어 갈 수있어 여기에 우리가 간다! 5 초 그것은 알고있었습니다 그래서 실제로 똑같이 생겼습니다

하지만 그 수가 훨씬 더 많다고 생각합니다 FELIPE HOFFA : 56,000 명의 작가가 트럼프에 대해 이야기하고 있습니까? 그것은 많은 Redditors입니다 그렇다면 그들이 긍정적으로 이야기하고 있는지를 아는 것은 어렵습니다 트럼프에 관해, 부정적으로 하지만 몇 가지 하위 색인이 있습니다

각 후보자에게 헌정됩니다 도날드, 힐러리 클린턴 대통령을위한 샌더스 각각은 그들 자신의 하위 목록을 가지고있다 그들은 다른 행동, 다른 좋아하는 있습니다 그리고 내가 가지고있는 매우 흥미로운 질문 4 년 전 지지자들은 어디에 있었습니까? 이전 선거를 위해? JORDAN TIGANI : 그래서 우리가 할 수있는 일은 이것입니다

우리는 다음과 같은 서브 레딧을 살펴볼 것입니다 헌신적 인 Reddit 공간 특정 후보자에게 이 경우 샌더스 대관은 도날드 (Donald) 힐러리 클린턴 그리고 나서 우리는 역사에 반대 할 것입니다 그래서 우리는 작가들을 끌어 들이고 있습니다

그리고 우리는 역사와 맞서고 있습니다 알아 내려면이 작성자는 무엇입니까? 4 년 전, 2012 년에? 그들은 정치에 관해 이야기하기 전에 무엇을 했습니까? 호프피야 : 맞춰 볼까요? 관객 : [INAUDIBLE] JORDAN TIGANI : 샌더스 지지자들 우주에 대해 이야기하고 월 스트리트를 점령했다 Wall Street를 점유하는 것이 의미가 있습니다 트럼프 지지자들은 총과 론 폴에 대해 이야기하고있었습니다 [웃음] 흥미로운 것이 있다고 생각합니다

힐러리 지지자는 기본적으로 충분한 론 폴입니다 그들은 론 폴과 함께했습니다 그래서 나는 그것이 힐러리 대 이미 설정하고 있다고 생각한다 Donald는 [INAUDIBLE]을 위해 호프만 호파 (FELIPE HOFFA) : 나는 이런 것들을 찾을 수있는 것을 좋아합니다

[키아와 박수] 고맙습니다 실시간으로 돌아갑니다 지금 무슨 일이 일어나고 있는지 돌아보십시오 지난 60 초 지금 사람들이 말하는 것은 무엇입니까? JORDAN TIGANI : 좋습니다

실제로 마지막 캠페인에서, 후보자가 실제로 시작한 일 중 하나 그들은 실시간으로 Twitter를 모니터링하기 시작 했습니까? 그래서 그들은 후보자가 성명을 발표했다 트위터는 그것을 어떻게 생각하니? 그리고 그들은 그것을 사용하여 메시지를 형성 할 수있었습니다 그들의 메시지가 어떻게 나왔는지 그들의 지지자들에게 따라서 Google Cloud를 실행중인 Twitter 피드가 있습니다 데이터 흐름

그리고 우리는 후보자를 언급하는 것을 꺼냅니다 그리고 우리는 그것을 두 곳으로 씁니다 하나는 BigQuery 테이블로 스트리밍하는 것입니다 그리고 다른 하나는 우리가 쓰고있는 것입니다 클라우드 pub / sub

그리고 나는 점프 할 것입니다 우리는 정말 간단한 서버를 가지고 있습니다 즉 자바 스크립트에서 – 단지 100 줄의 코드 – 그것은 pub / sub에서 읽을 것입니다 그리고 그것을 Firebase에 기록 할 것입니다 그리고 이것은 일종의 ID 로깅 일뿐입니다

이 짹짹의,하지만 정말, 정말 간단합니다 우리는 또한 아주 작은 웹 사이트를 가지고 있습니다 그것은 우리를위한 대시 보드를 만들 것입니다 그리고 우리는 그것을 허용 할 것입니다 그럼 내가 다시 뛰어 가자

여기 Firebase 출력이 있습니다 우리는 우리가 트윗을 쓰고 있음을 볼 수 있습니다 그리고 여기에 대시 보드가 있습니다 따라서 대시 보드는 기본적으로 최신 정보를 짹짹하고 그것을 여기에 표시하십시오 또한 표시되는 해시 태그를 볼 수도 있습니다

후보자와 가장 자주 호프만 호파 : 네 우리는 어떤 트윗이 실시간으로 보여지고 있는지 전혀 모른다 그래서 손가락이 엇갈 렸다 JORDAN TIGANI : 항상 위험합니다

대화에서 실시간으로 소셜 미디어를 표시하려고 할 때 때문에– [웃음] 나는 그 성명서의 나머지 부분을 기입하지 않을 것입니다 호프만 호파 : 그리고 어떤 종류의 흥미로운 것들 우리는이 짹짹으로 할 수 있을까요? JORDAN TIGANI : 나는 후보자들에게 실시간으로 이것을 사용하고있었습니다 그리고 트윗 된 것들을 살펴 봅시다 이 대화가 시작된 이래로 진행된 트윗 우리가 여기 온 이후로 약 30 분이 지났습니다

그래서 우리는 31,000 개의 짹짹이 있다는 것을 알 수 있습니다 하지만 그렇게 인상적이지는 않습니다 30 분은 오래되었습니다 그래서 초를 봅시다 호파 호파 : 둘째

JORDAN TIGANI : 아, 고마워 나는 지나친 복수 자입니다 지난 10 초는 어땠 니? 지난 10 초 동안 얼마나 많은 짹짹이 있었습니까? 붐, 지난 10 초 동안 45 개의 트윗이 있습니다 이미 BigQuery에 있습니다 누군가가 이것을 올렸을 때부터입니다

그들은 트위터에서 보내기를 누르십시오 Twitter API를 통해 사라졌습니다 그것은 pub / sub에갔습니다 그런 다음 데이터 흐름을 거쳤습니다 그리고 그것은 BigQuery에 들어갑니다

즉시 쿼리 할 수 ​​있습니다 호프만 호프 와우 JORDAN TIGANI : 그래서 보려고 노력합시다 후보자가하고자하는 것과 같은 것으로 그래서 저는 Re : dash로 돌아갈 것입니다 그래서 우리는 다음과 같은 것들에 대한 해시 태그를 살펴볼 것입니다

지난 1 시간 동안 일어난 일들 사람들이 트위터에 대해 이야기하고있다 그 후보자에 대한 트윗에 있습니다 그리고 어제와 비교해 보겠습니다 그래서 이것은 우리에게 희망을 갖고 보여줄 것입니다 새롭다, 어제 여기에 없었던 어떤 것들이 인기가있다

여기에 우리가 가진 것이 있습니다 우리는 트럼프와 두 번째 수정안에 대해 tweeting하는 사람들이 있습니다 뿐만 아니라 버니 그것은 흥미로운 일입니다 그것에 관한 소식이 있는지 궁금합니다

호프만 : 클린턴입니다 JORDAN TIGANI : 클린턴의 흥미로운 점은 무엇입니까? 아마 그들 중 일부는 말할 수 없을거야 호파 호파 : 실시간 데이터, 죄송합니다 JORDAN TIGANI : 어쨌든 – 팔루자를 채택하십시오 그래, 실시간

호파 호파 : 예, 실시간 데이터입니다 JORDAN TIGANI : 소셜 미디어는 언제나 항상 재미 있습니다 호프카 : 약 9 분 남았습니다 우리가 할거야? 우리는? 조던 티가니 : 불행하게도 우리는 할 수 있습니다 그러나 우리는 차기 대통령을 예언하지 않을 것입니다

하지만 우리는 여기서 벗어나고 싶지 않았습니다 어떤 예측을 보여주지 않고 결국, 우리는 지난 번에 합리적으로 좋은 일을했습니다 Google에는 이러한 놀라운 도구가 있습니다 너 아마 들었을거야

지난 며칠 동안, TensorFlow와 Cloud Datalab FELIPE HOFFA : 그것들은 우리의 도구입니다 TensorFlow, 기계 학습을 실행하는 오픈 소스 도구 알고리즘 Datalab, 꽤 좋은 오픈 소스 노트북 환경 모든 요소를 ​​함께 섞어서 사용합니다 그래서 우리는 누가 누가 무엇을 말했는지 예측하려고 노력할 것입니다

JORDAN TIGANI : 그렇게하는 것이 안전한 것 같습니다 FELIPE HOFFA : "안전합니다" JORDAN TIGANI : 그래서 나는 우리가 가지고있는 자료를 살펴볼 것입니다 그래서 우리는 몇 가지 진술을 모았습니다 다양한 후보자에게서

전체 데이터가 아닙니다 그래서 우리는 기계 학습 모델을 구축 할 것입니다 200K의 데이터만으로 그리고 나는이 모양이 무엇인지 보여 드리겠습니다 이것들은 다양한 후보자들만의 진술입니다 우리가 언론에서 수집 한 것이라고 말했습니다

그리고 우리는 이것을 사용할 것입니다 그리고 우리는 이것을 기계 학습 모델에 넣을 것입니다 내가 말하는 동안 모델을 만들 것입니다 그럼이 세포로 달려 가자 이것이 Google Cloud Datalab입니다

이것은 iPython 또는 목성 노트북입니다 과학적 컴퓨팅을 위해서 또한 TensorFlow와의 통합 성도 뛰어납니다 그래서 이것은 많은 코드처럼 보이지만,이 코드의 대부분은 실제로 텍스트를 조작하는 것입니다 따라서 Google Cloud Storage에서이 데이터를 가져옵니다 그런 다음 데이터 파일을 읽는 중입니다

및 데이터 파일을 분할 사실 그것은 대부분의 코드입니다 그래서 이것은 모두 TensorFlow 코드입니다 우리가이 일을해야한다는 것 그것의 대부분은 단지 출력을 설정하는 것입니다, 그것이 옳다는 것을 의미하는 것을 설정하고, 또는 우리는 최소화하거나 최대화하려고합니다

이 경우, 그것은 십자가의 엔트로피입니다 그리고 우리는 Ftrl 옵티 마이저를 사용할 것입니다 그게 무슨 뜻인지 Google에서 광고를 위해 사용하는 알고리즘입니다 그리고 그것은 또한 – 여러분이 본질적으로 다른 최적화 도구를 많이 사용하십시오

그러나 이것 하나는 꽤 잘 작동합니다 그리고 나서 교차 엔트로피를 최소화 할 것입니다 근본적으로 우리가 얻고 자한다면 가능한 정확한 결과 그리고이 루프는 여기서 훈련을 실행합니다 따라서 우리는이 정확도의 결과가 약 72 %라는 것을 알 수 있습니다

그래서 그것은 그렇게 높은 것으로 보일 수 없습니다 하지만 우리가 실제로 인간을 가졌다 고 생각한다면 이들을 분류 할 때 얼마나 잘 할 수 있는지 알아 내려고 노력하십시오 그리고 인간은 약 60 % 만 가지고 있습니다 그래서 우리는 더 잘할 수있는 모델을 만들었습니다 이러한 진술을 식별 할 때 인간보다 괜찮아

이제 다양한 후보자들로부터 인용문을 얻었습니다 그리고 우리는이 모델을 실행하여 그들이 실제로 말하는 것을 우리가 예측할 수 있다면 그리고 이러한 인용문은 교육 세트의 일부가 아닙니다 그리고 이것들은 기본적으로, 그들의 웹 사이트에서 그래서 보자 – 사랑스러워

우리는 거기에 갈 그래서 예상 클린턴, 실제로 클린턴 호프만 호프 (FELIPE HOFFA) : 우리는이란의 전 지구 적 공포를 완전히 해체 할 것이다 회로망 TensorFlow [INAUDIBLE]

제 캠페인은 정치 혁명입니다 수백만 명이 서서 말하고 있습니다 충분하다 우리 정부는 우리 모두에게 속해있다 억만 장자 만이 아닙니다

누가 말했다? 조던 티 가니 : 버니 샌더스 호프 파 호프 : 알고 있습니다 크루즈 원고를 읽을 수 있습니다 요르단 타이가니 : 우리는 지휘관이 필요합니다 누가 미국의 국가 안보 이익을 우선시 할 것인가

그 중 하나가 테드 크루즈였습니다 호프만 호프 : 꽤 좋습니다 JORDAN TIGANI : 여기 뭔가가 있습니다 나는 어떤 후보자도 그렇게 생각하지 않는다고 말했다 펠리페 호파 (FELIPE HOFFA) : 결코 말하지 않은 것을 시도해보십시오

JORDAN TIGANI : 그러나 누군가는 제안을하고 있습니까? 우리가 어떤 후보자를 추측하려고하길 원한다는 진술의 그것을 말할 가능성이 더 큽니까? 호프만 호프 : 임의의 성명? 그냥 시험해 보는거야? 조던 티 가니 : 누구? 관객 : TensorFlow가 좋습니다 우리는 TensorFlow를 좋아합니다 조던 티 가니 : 좋아 [웃음] FELIPE HOFFA : 우리는 TensorFlow를 좋아합니다 좋아, 지금 시간이 없어

JORDAN TIGANI : 네 호프 파티 :이 이야기를 끝내야 할 때 당신이 즐겁게 지내기를 바랍니다 그러나 이는 데이터뿐만 아니라 우리가 어떻게 분석하고 즐겁게하는지, 다른 Google Cloud를 사용하는 방법입니다 도구 – TensorFlow, Datalab, BigQuery, 물론 – 다른 데이터 세트를 연결하는 방법, 우리는 어떻게이 점들 사이에 선을 그리는가? 이러한 도구를 사용하여 우리의 세계로 가져 오십시오

우리가 사는 곳을 바꿀 수 있습니까? 우리는 처음부터 투표 할 수 있습니다 모든 사람이 투표 할 수있는 것은 아닙니다 그러나 우리는 여전히 그 과정의 일부가 될 수 있습니다 요르단 타이가니 : 그리고 선거는 중요합니다 그리고 우리가 구축 한 도구가 네가 할 수있는 영감을 줄거야, 이봐, 할 수있어

쉽습니다 실제로 나가서 시도해 보라고 격려하십시오 세상을 바꿔라 호프만 호파 : 네 우리가 도운 데 도움을 준 모든 분들께 감사드립니다

이 데모, Reddit, Twitter Jordan TIGANI : 우리는 Dataflow 팀에서 왔습니다 샘 [? 맥베디?], [? 사라?] 로빈슨 도움 파이어베이스 [INAUDIBLE] 팀이 TensorFlow를 도왔습니다 우리가 잊어 버릴 사람들이 많이 있습니다

FELIPE HOFFA : 네, Re : 대시, 네 조던 티가니 : Re : 대쉬, 네 호프만 호파 : 네 개발자 옹호자 덕분에, I / O를하는 모든 사람이 발생합니다 그리고 다른 방법이 없다면 우리가 할 수있는 많은 다른 것들

우리는 월드컵에 관해 2 년 전 다시 이야기 할 수 있습니다 고맙습니다 조던 티가니 : 고마워 [박수 갈채]

Oracle Big Data Preparation Cloud Service: Uploading Data

[음악] Oracle Big Data Preparation Cloud Service에서 데이터 소스를 생성 한 후, 파일을 데이터 소스에 업로드 할 수 있습니다 서비스의 홈 페이지에서 데이터를 업로드합니다

업로드 페이지에서 선택한 데이터 소스 내에서 데이터를 업로드 할 디렉토리와 데이터 소스를 선택합니다 로컬 파일 시스템을 검색하여 업로드하려는 데이터 파일을 선택하고 업로드 프로세스를 시작합니다 프로세스가 성공적으로 완료되면 확인 메시지가 표시됩니다 이제이 파일을 기반으로 새로운 변환을 만들 수 있습니다 자세한 내용은 cloud

oraclecom에서 온라인으로 문의하십시오 지켜봐 줘서 고마워

Enterprise security and monitoring for big data solutions on Azure HDInsight – BRK3108

큰 데이터를위한 엔터프라이즈 보안 세션에 오신 것을 환영합니다 푸른 hd 통찰력에 해결책

나는 시니어 프로그램 매니저이다 푸른 하늘의 통찰력 팀과 오늘 나는 갈 것이다 – 나는있을 것이다 새로운 기능과 최신 기능을 보여줍니다 우리가 푸른 하늘의 통찰력에서 한 기능 대규모 데이터 솔루션과 대규모 데이터 아키텍처 보안 하늘빛 전에 내가 정말로하고 싶어 여기와 주셔서 감사드립니다

4 일이 지난 후에도 알 수 있습니다 긴 점화 세션, 그리고 이것이 마지막 세션 인, 나는 진정으로 여기 와서 반가워요 내 친구 중 일부는 이미 호텔 방에 있어요 그 말은 내가 네가 할거라고 생각해 이와 같은 상황 때문에 세션을 매우 유용하게 찾을 수 있습니다

이제 한 달도 채 안되는 equifax는 수백만에 대한 가장 민감한 데이터를 보유하고있는 기관 고객이 침해당했습니다 이제 누가 나 한테 말하면 여기에 앉아있는 모든 사람들이 위반에 영향을 받았다 나는 전혀 놀라지 않을 것이다 1 억 3 천 3 백만 명이 영향을 미치고 위반으로 인해 손상되었습니다 지금 내가보기 시작했을 때

실제로 일어난 일에 조금, 거기 오픈 소스 기술이 그래서 웹 사이트를 구축했습니다 그 능력 Equifax 온라인 논쟁을 일으키는 패치를 사용했습니다 포털, 그리고 해커가 많은 기록을 ,다 equifax에 관한 고객 기록

이제 너는 궁금해하고 있을지도 모른다 빅 데이터와 무슨 상관이 있습니까? 실제로는 그렇지 않습니다 관계가 없습니다 하지만 내가 여기서 데려 가고 싶은 요점은 필요한 오픈 소스 구성 요소에 의존하십시오 너의 전체가 단단하다는 것을 확실히

그것이 아니라면, 이런 상황이 발생합니다 이제 위반 사례를 살펴 보겠습니다 얻은 설치 1 월 중 언젠가 공격 지금 이것은 아파치가 아니었다 파업 또는 동등한 위반

여기에 해커가 방금 갔다 우리가 클러스터에서 찾을 수있는 파일들 그리고 그는 행정관, 나는 모두를 읽을 수 없다 부적절한 내용으로 여기에서 읽어보십시오 하지만 요점은 이것이 아니더라도 많은 분석가들이 조사를 시작했습니다 그리고 어떤 경우를 보아라

또는 클러스터가 영향을받습니다 그들은 약 8,000 명 현재 전세계 10,000 클 리즈 우리는 너의 하얼럽을 원하지 않는다 영향을 받기위한 설치 또는 큰 데이터 솔루션 이것이 바로 푸른 하늘의 통찰력이 매우 당신을 도울 멋진 기능 보안을 위해 -하지만 그것에 깊이 빠져들기 전에

푸른 하늘의 통찰력에 대해 아는 사람들이 몇이나됩니까? 오, 꽤 많이 있습니다 얼마나 많은 사람들이 클러스터 와우, 끝내 주네 나는 너희들을 사랑해 그래서 푸른 하늘 통찰력이 무엇인지 모르는 사람들을 위해

완전히 관리되는 클라우드입니다 푸른 하늘의 통찰력을 사용하여 클러스터를 스핀 업하고 오픈 소스 구성 요소가 포함 된 클러스터를 몇 개만 열어보십시오 의사록 완전히 탄력적이어서 클러스터 규모를 가능한 한 축소하고, 데이터가 원격으로 유지됩니다 근원 그래서 그것은 전혀 영향을 미치지 않을 것이다

우리는 당신을 위해 클러스터를 관리합니다 따라서 클러스터에 문제가 발생하면이를 관리 할 것입니다 그리고 우리는 그것이 고 가용성 그것과는 별개로 Ny 오픈 소스 구성 요소 원하는 클러스터에 설치할 수 있습니다

isv 응용 프로그램이 많이 있으며이를 사용하여 클러스터를 확장 할 수 있습니다 그래서 아무 시간 낭비하지 않고 그냥 당신에게 아주 빨리 보여 드리죠 데모 방법을 창조하고 얼마나 쉬운가 푸른 하늘 클러스터를 만드는 것입니다 여기 나는 푸른 포털에 있습니다 그리고 나는이 공간에 어떻게 도달 하는가? 새로운 데이터 분석을 클릭하기 만하면됩니다

Hd 통찰력 매우 이맘 hd 통찰력을 만드는 데 필요한 세 단계 만 있습니다 클러스터 및 첫 번째 단계에서 나는 단지 클러스터 이름을 지정합니다 그러니 데모 105에 불을 켜 봅시다

클러스터, 다양한 클러스터 유형 나는 스파크를 선택하는 것으로 레이블을 붙일 것이다 가장 많이 사용되는 클러스터 유형입니다 그리고 나서 dmin 사용자 이름 암호를 묻습니다 최소 사용자 이름 암호를 몇 개 추가하십시오 기존 자원 그룹을 사용할 수 있습니다

그리고 그게 다야 너무나도 좋아요 정보는 1 단계에 필요합니다 2 단계에서 데이터 소스를 선택해야합니다 나는 푸른 hd 전에 언급했듯이 통찰력은 하늘 구름에이 힘을줍니다

그리고 모든 데이터는 원격 저장소에 저장됩니다 나는 이것들 중 어느 것을 선택할 수있다 정말 좋은데, 당신은 당신의 hd 통찰력을 줄일 수 있습니다 클러스터 및 모든 데이터는 클러스터에 유지됩니다 여기에서는 간단한 상점을 선택하고 다음을 클릭합니다

유효성 검사 후 요약 페이지에서 create를 누르면됩니다 그리고 10 분에서 15 분 내에 클러스터를 생성합니다 스파크 클러스터를 세우는 것만 큼 간단합니다 푸른 구름 위에서, hd 통찰력을 사용합니다 지금은 클러스터를 만들지 않겠지 만 내가 만든 클러스터를 만들 것입니다

여기 내가 클러스터로 가자 대시 보드 및 패스는 사용자 이름, 암호도 갖고 있습니다 생성 도중 전달되었습니다 로그인을하면 알게 될 것입니다

내가 로그인 했음 – 우물 데모 처음으로 작업하지 마십시오 그래서 다시 시도하겠습니다 구현하려면 로그인하십시오 관리 포털과 메트릭 포털 저는 관리자입니다 나는 갈 수 있고, 나는 높은보기를 사용하여 어떤 명령이나 포털 외부에서 명령을 실행할 수도 있습니다

스크립트 괜찮아 괜찮아 그럼, 앞으로 나아가 자 보안 측면에 깊이 빠져보세요

따라서 큰 데이터 보안에 대해 생각할 때 크게 4 가지가 있습니다 측면 또는 네 가지 주요 측면, 어떤 수준의 보안, 인증, 권한 부여 및 데이터 수준의 보안입니다 hd 통찰력 클러스터 또는 hadoop 클러스터 보호 밖에서 인증이란 인증을받은 사람 또는 누가 체스터에 명령을 실행하고 실행하십시오 권한 부여 란 실제로 역할 기반 액세스 제어를 의미합니다

따라서 관리자 인 사용자와 사용자가있는 사용자가 있으며 일부는 읽기 전용 사용자, 일부는 쓰기 전용 사용자입니다 마지막으로 데이터 보안이 있습니다 데이터가 기록됩니다 따라서 일부 해커가 관리 – 데이터를 관리하기 위해 관리해야하지만 여전히 그렇지 않습니다 데이터에 액세스 할 수 있습니다

그래서, 다음 60 분 안에 또는 그래서, 나는이 각각의 측면에 깊이 들어가서 당신을 보여줄 것입니다 고객 시나리오는 무엇이며, 몇 가지 데모가있을 때 보여줍니다 hd에서 전체 아키텍처를 설정하는 방법 일부 시나리오는 보안에 관한 것입니다 이러한 서비스를 분석 할 때 그들은 단지 하나의 문장으로 끓어서 내 데이터를 비공개로 만들고 싶습니다

항상 그리고 그것이 정말로 무엇을 의미합니까? 당신이 구내에있는 클러스터를 가지고있을 때, 그렇습니다 데이터가 사용자의 외부로 절대 나오지 않으므로 데이터는 항상 비공개입니다 구내 네트워크에서 그러나 하늘빛이라는면에서 실제로 의미하는 것은 무엇입니까? 하늘빛에 도달하면 네트워크 보안 그룹이됩니다

여기에 기업 네트워크가있는 고객이 있다고 상상해보십시오 그리고 그들은 hd 통찰력 집단을 소유하고 있습니다 그들이 뭘 할 수 있는지 그들이 만들 수 있습니다 가상 네트워크 내의 클러스터는 일부 네트워크 보안 그룹 또는 경계 네트워크 보안 그룹은 에서 오는 요청 엔터프라이즈 네트워크에서 클러스터에 액세스 할 수 있습니다

그리고 다른 요청은 액세스 할 수 없습니다 따라서 hd 통찰력 클러스터에 액세스하는 사용자가있는 경우 엔터프라이즈 네트워크 내에서 요청이 성공합니다 외부에서 오는 다른 사용자의 경우 클러스터에서 요청이 성공하지 못합니다 한 hdinsight 요청을 가져옵니다, 그것은 작업 부하를 처리하고 그런 다음 BLOB 저장소 또는 데이터 호수 저장소에서 데이터를 가져옵니다 작업을 실행하고 결과를 고객에게 반환합니다

azure에서 네트워크 보안 그룹이 어떻게 생성되는지 확인하려면, 이것은 스크린 샷입니다 서클 네트워크 보안 그룹은 다음과 같습니다 특정 iP 주소 범위 네트워크의 경우 해당 iP 주소 범위에서 온 모든 요청, 포트 443은 교환 사이트 클러스터에 들어갈 수 있습니다 거절 됨

이제 알게 될 경우 여기 네 다른 그룹들, 1 번에서 4 번까지 규칙입니다 당신은 무엇이 궁금 할 것입니다 그 규칙들? 그것들은 우리가 소유하고있는 관리 서비스 내가 너에게 말했던 것을 기억한다면 이전에는 hd 통찰력이 완전히 관리 된 hadoop 제공품이었습니다 우리는 귀하의 클러스터를 관리합니다

우리는 당신의 클러스터가 항상 사용 가능하며 항상 작동합니다 4 개의 iP 주소는 다음과 같습니다 우리가 관리 할 수있는 관리 서비스의 주소 네트워크 보안 그룹에서 클러스터를 볼 수있게하십시오 좋아요 그래서 그들은이 기능과 일부 기능을 만듭니다

고객은 우리에게 질문하기 시작했습니다 가상 네트워크에 대한 우리의 요청은 비공식적이지만 실제 저장되는 데이터에 관한 정보 – blob 저장소 계정에 저장됩니다 hd insight가 blob에서 해당 데이터를 가져 오는 호출을하면 인터넷 그럼 어떻게 비공개로 만들 수 있습니까? 그리고 우리는 그 의견, 하늘빛 얼룩 저장 및 네트워킹을 들었습니다 팀이 모여서 서비스 터널 또는 터널을 만들었습니다

가상 네트워크와 얼룩 저장 장치 사이에 어느 것이 있습니다 그래서, 그 터널을 사용하여, blob 저장소에있는 모든 데이터, 가상의 모든 리소스에서 액세스하는 경우 네트워크, 푸른 하늘의 뒷골목에서는 항상 사적입니다 공개 인터넷에는 전혀 데이터가 노출되지 않습니다 이를 달성하는 방법은 여기에 스크린 샷이 있습니다 어떤 저장소 계정과 해당 저장소 계정에 대한 것인가? 선택한 네트워크를 선택했음을 알 수 있으며 모든 데이터를 의미하는 범위의 가상 네트워크 BLOB 저장소에있는 저장소 또는이 저장소 계정은 이 가상 네트워크 내의 리소스를 통해 액세스 할 수 있습니다

그들이 접근 할 때마다 하늘빛 등뼈와 공용 인터넷에 접속할 수 없습니다 이제 간단한 데모를 보자 이 이것이 Hd 통찰력입니다 나에게 보여준 보안 또는 네트워크 보안 규칙 전에

데이터 센터를 볼 수 있습니다 규칙, 이제 네트워크를 보여 드리겠습니다 사실 아주 간단합니다 가상 네트워크가 있습니다 Adv net

내가 원할 때 나는 서브넷으로 간다 hd insight 클러스터를 배포하려면 그리고 서브넷에서 나는 네트워크 보안 그룹, hdi 보안을 선택할 수 있습니다 그리고 저장을 누르십시오 실제로는 그렇게 간단합니다

네트워크 보안 그룹을 가상 네트워크에 연결하는 경우 이제 가상 네트워크 내에서 어떻게 hd 통찰력을 창출합니까? 저에게도 아주 빠른 데모를 보여 드리겠습니다 그래서 이것은 우리가 hd를 만드는 페이지로 돌아가고있었습니다 고급 설정으로 이동하면 가상 네트워크 용 드롭 다운, 그래서 난 그냥 advnet을 선택할 수 있습니다 그리고 다음에 히트 사실 가상을 선택하는 것만 큼 간단합니다 네트워크 드롭 다운에서

그리고이 후에, hd 통찰력 클러스터에는 가상 네트워크의 개인 iP 주소가 있습니다 그것은 nsg 규칙과 모든 요청을 데이터 센터는 해당 요청 만 클러스터를 통과합니다 이제 인증 시나리오 인 다음 시나리오 세트로 넘어갑니다 우리가 모든 시나리오를 인증에 요약하면, 그들 모두는 단지 하나의 문장으로 끓어서, 나는 그것을 원한다 인증 된 사용자 만 데이터에 액세스합니다

인프라 또는 아키텍처 측면에서 이것이 의미하는 바는 무엇입니까? 이전의 간단한 다이어그램으로 돌아가서 우리는 다시 데이터 센터, 사용자 데이터 센터 및 요청 hd 통찰력 군에 그러나 나는 여기에 새로운 것을 추가했다 그들은 항상 사용자 이름과 암호를 전달합니다 사용자 이름 / 암호가 없으면 요청이 클러스터로 전혀 보내지지 않습니다 hd 통찰력 클러스터에는 게이트웨이 계층이라는 계층이 있습니다 들어오는 모든 요청을 실제로 확인합니다

사용자 이름 / 비밀번호가 올바른지 확인합니다 그 요청은, 그 요청이 계속되거나 나아가는 것을 허용합니다 hadoop 구성 요소로 전달 인증되지 않은 경우 요청을 허용하지 않습니다 앞으로 전진하십시오

그래서,이 다이어그램에서, 나는 보여 줬습니다 그건 – 사실, 전에 기억한다면, 내가 창조했을 때 hdinsight 클러스터는 하나의 사용자 이름과 암호 그것은 관리자 사용자와 거기에 비밀번호 였어 너무 많은 고객이 있습니다

우리가이 관리자를 정말로 공유하고 싶지 않다고 말했다 모든 다른 사용자들 사이의 사용자 이름 / 암호 많은 다른 사용자가 자신의 사용자 이름 / 비밀번호를 사용할 수 있습니다 예를 들어,이 예제를 보면, 사용자 1이고 User two, use err – 이것은 로컬 사용자입니다 관리자가 작성합니다

직원들이이 문제를 생각해 낼 수 있습니다 사용자 이름 / 비밀번호와 hdinsight에게 요청을 보냅니다 이 기능은 모든 클러스터 유형에서 사용할 수 있습니다 모든 클러스터 유형의 표준 sku에서 사용할 수 있습니다 그러나 우리에게 돌아와서 다음과 같이 말한 고객이 있습니다

새 사용자 계정을 관리해야하는 이유는 무엇입니까? 이 새로운 사용자의 비밀번호를 관리해야하는 이유는 무엇입니까? 계정? 내 직원이 내 조직에서 도메인을 사용하여 로그온하려는 경우 이름 그래서 저는 예를 들어 싶습니다 클러스터에 로그온하십시오 따라서 프리미엄 클러스터에서 사용할 수있는 기능이 있습니다 데이터 센터의 작동 방식은 사용자를 Azure, 그들은 하늘에 도메인 서비스를 가능하게합니다

도메인 서비스는 다음에서 사용할 수있는 새로운 금융 서비스입니다 Azure 80 및 hdinsight 클러스터가 만들어지면 작동합니다 도메인 서비스를 사용하면 프리미엄 클러스터를 만들 수 있습니다 kerberos 클러스터입니다 다음에 사용자가 올 때 hdinsight에 대한 사용자 이름 / 비밀번호로 hdinsight가갑니다

도메인 서비스 및 사용자 이름 / 암호 유효성 검사 이 사용자는 수집 된 것입니다 사용자의 유효성을 검사 한 후, 그것은 kerberos를 사용할 것이며, kerberos를 다른 hadoop 구성 요소와 작업을 실행합니다 또한 결과에 영향을 미치고 결과를 고객 이제이 설정으로, 직원은 도메인 사용자 이름 / 암호와 함께 도메인 서비스는 프리미엄 클러스터 자, 이제 데모를 보도록하겠습니다

다중 사용자 인증 그래서 이전에 나는 hdinsight 클러스터를 보여 줬어 이 다중 사용자 클러스터는 어느 것입니까? 그래서 나는 관리자 계정을 사용하여 클러스터에 로그인했다 실제로 다시 로그온하게하십시오 그리고 내가 계정에 로그온하면, 당신은 내가 구현을 관리 할 때 보게 될 것을 알 수 있습니다

사용자의 관리 페이지에는 사용자 1과 사용자 2가 있습니다 이들은 로컬 사용자입니다 그리고 나는 갈 수 있고 나는 위로 회전 할 수있다 이 사용자 1 및 사용자 2 계정을 사용하는 다른 창과 로그온 그리고 그들은 일자리도 낼 수 있습니다

표준 클러스터입니다 이제 프리미엄을 보여 드리겠습니다 클러스터를 만들고 여러 클러스터를 사용하여 프리미엄 클러스터에 로그온하십시오 계정 그래서 이것은 llap 포함 자입니다

프리미엄 클러스터 우리는 최근에 – 어제 우리는 hdinsight에서이 기능을 사용 했습니까? 관리자 사용자가 아닌 도메인 사용자로 로그온합니다 그리고 여기 hdi 사용자 인 도메인 사용자가 발생합니다 클러스터의 관리자가 되십시오 그래서 로그온하면 알 수 있습니다

이 사용자는 또한 구현되어야합니다 경험은 정확하게 같은, 유일한 차이점은 여기가 kerberos 클러스터라는 것입니다 우리는이 클러스터에 kerberos를 자동으로 설정했습니다 단지 도메인에 연결합니다 서비스

이 사용자는 여전히 최고로 갈 수 있습니다 보기에서 작업을보고 실행하십시오 그것은 또한 llap에 제 플린에 갈 수 있습니다 클러스터 또는 zeppelin에서 실행됩니다 괜찮아

이제 어떻게 할 수 있는지 보여 드리겠습니다 다른 도메인 계정을 사용하여이 클러스터에 로그온하십시오 그래서, 나는 갈거야 그리고 나는 다른 것을 사용하여 로그인 할거야 도메인 계정, ds1

그래서이 클러스터에서 나는 4 개의 도메인 계정은 데이터 과학자 1, 2, 3 및 4입니다 4 그래서 그 클러스터에 로그인했습니다 ds1 데이터 저장소 사용 실제로이 클러스터에 구현을 관리하는 것을 보여 드리겠습니다

그래서 내가 관리하러 갈 때 사용자 페이지가 있다는 것을 알게 될 것입니다 그리고 이들은 4 명의 다른 사용자 인 ds 1, 2, >> 그리고 4 그리고 당신은 이것들이 Ldap 사용자이고 로컬 사용자가 아닙니다 그들은 그들이오고 있음을 의미합니다 구내 고객 또는 고객의 디렉토리

또는 활성 디렉토리 여기에 ds1로 로그인되어 있습니다 그리고 지금 나는 아무 데나 가서 달릴 수있어 하이브 쿼리 또는이 클러스터에서 사용할 수있는 쿼리 괜찮아? 그래서 지금까지 우리는 다중 사용자 표준 클러스터 및 다중 사용자를 사용한 인증 프리미엄 클러스터에서 도메인 자격 증명을 사용하여 인증합니다 이제 다음 시나리오 세트로 넘어 갑니 다

권한 부여 시나리오 그리고 권한 부여 시나리오, 고객은 모두 두 가지 주요 범주에 속합니다 첫 번째는 권한있는 사용자 만 액세스 할 수있게하려는 것입니다 민감한 데이터 그리고 두 번째 것은 내가 원하는거야

수행 할 권한있는 사용자 만 특권 조작 자 그럼 그게 뭔지 보자 hdinsight에 대한 평균? 그래서 첫 번째는 구현시 많은 것을 수행 할 수 있습니다 운영 매우 높은 성능을 발휘할 수 있습니다

권한이 부여 된 작업은 전체 클러스터를 중지합니다 클러스터 도메인을 이동하거나 재부팅하거나 서비스를 다시 부팅 할 수 있습니다 어떤 관리자가 구현할 수있는 자신의 구현시 사용할 수있는 일부 작업이 있습니다 하이브 테이블에서 일부 데이터를 쿼리 할 수 ​​있습니다

매우 낮은 특권을 가진 사용자가 사용할 수 있습니다 클러스터 사용자이며 6 가지 역할이 있으며 이러한 역할에 사용할 수있는 템즈 이것들은 ambari의 프리미엄 클러스터에서 사용할 수 있습니다 표준 클러스터에서도 사용할 수 있습니다 그래서 이것이 첫 번째 요구 사항입니다

운영 내가 원하는 두 번째 권한있는 사용자가 중요한 데이터에 액세스 할 수 있습니다 apache ranger를 사용하여 사용 가능합니다 이제 아파치 레인저는 중앙 관리 포털 다양한 정책을 관리합니다 하이브, 스톰, 카프카 및 기타 여러 오픈 소스 구성 요소

이 클러스터 또는이 스크린 샷에서 우리는 원사 정책, 하이브 정책 및 wasb 정책 나는 그렇게 할 것이다 예 얀 정책, wasb 정책 및 하이브 정책 이 정책에서는 관리자가 실제로 매우 잘 만들 수 있습니다

데이터 과학자가 한 사용자가 가질 수있는 곡물 정책 테이블의 특정 열에 만 액세스합니다 레인저는 데이터 마스킹을 생성 할 수있는 영역을 넘어서고 있습니다 정책 따라서 데이터 마스킹 정책 관리자는 데이터 과학자 사용자가 액세스 – 모든 열에 액세스 할 수 있지만 모두 마스크 해제합니다 민감한 컬럼의 민감한 데이터

그리고 우리는 그것을위한 데모를 보게 될 것입니다 이것이 레인저가 작동하는 방식입니다 레인저가 작동하는 방식에 대한 매우 단순한 다이어그램 엔터프라이즈 데이터의 사용자 센터에서 요청을 보내고 있습니다 사용자 이름 / 암호

Hdinsight는 도메인 그리고 나서 hdinsight는 이 사용자는 어떤 종류의 직업을 운영하고 있습니까? 그리고 사용자는 어떤 리소스에 액세스하고 있습니까? 그들은 레인저에 갈 것이고, 이 사용자는 해당 사용자에게 그가 원하는 자원? 레인저가 예스라고한다면 Hdinsight는 일하러 간다 레인저가 아니오라고 대답하면 Hdinsight는 사용자에게 오류 메시지를 표시합니다 이러한 리소스에 액세스 할 권한이 부여되었습니다 그리고 우리는 그것을위한 데모를 볼 것입니다

하나, 너무 승인 외에도 정책 레인저는 감사 기능도 일부 제공합니다 따라서 관리자가 작성한 정책에 상관없이 분을 추가 할 수 있습니다 레인저에게 모든 감사 요청을 볼 수 있습니다 감사 로그는 액세스를 시도한 사용자를 볼 수 있습니다

어떤 리소스를 허용하고 어떤 리소스를 허용하지 않을지 허용됨 권한 부여는 파일 및 폴더 수준 사용 권한 그래서 이것은 매우 깊숙한 곳입니다 기능 및 실행중인 클러스터가있는 사람들 그들의 구내에서, 그들은 이것을 잘 알고 있습니다 기능

그래서 너는 헛소리가있을 때 구내에서 실행되는 클러스터에서 모든 데이터가 실행되고 있습니다 로컬 디스크 그리고 클러스터에 로컬 hdfs가 있습니다 관리자 또는 관리자는 로컬 hdfs는 해당 사용자가 전체 데이터

사용자가 작업을 실행할 때마다 작업이 모든 작업에 액세스하는 경우 다른 데이터 작업이 실패합니다 그것은 매우 큰 구조입니다 이 구름을 하늘 구름 위로 옮기십시오 귀하의 데이터는 두 곳에서 유지되며, 하늘빛 stornlg와 하늘빛 호수 가게 Azure 스토리지에는 다음과 같은 기능이 내장되어 있지 않습니다

파일 및 폴더 수준 사용 권한은 로컬 hdfs 그래서 우리가 한 일은 Hdinsight는 apache에서 플러그인을 만들었습니다 레인저는 이러한 기능을 시뮬레이트하기 위해 동일한 파일 및 폴더 레벨 기능을 사용합니다 당신은 로컬 hdfs에 있습니다 하늘빛 데이터 호수에 반면에 빌드 인 권한이 있습니다

어디로 가서 매우 훌륭한 파일 및 폴더 수준의 권한을 검색 할 수 있습니다 hdinsight가하는 일은 원활한 통합이 가능하다는 것입니다 해당 파일 및 폴더 자신의 자격 증명을 사용하여 로그온하는 경우 hdinsight는 그 자격 증명은 데이터 레이크 스토어에 이르기까지 관리자가 설정 한 파일 및 폴더 수준 사용 권한을 존중합니다 데이터 호수 저장소

저것에 별표가 있습니다 이 기능에 대한 단점이 있습니다 다중 요소 인증이 설정된 사용자가 사용할 수 있습니다 그리고 우리는 그 한계를 환영하기 위해 노력하고 있습니다 음, 곧

하지만 네가 가지지 않는 한 Mfa 설정, 모든 사용자 자격 증명이 전달됩니다 요청에 따라 상점까지 줄곧 있습니다 그리고 우리는 그것을위한 데모를 보게 될 것입니다 자,이 두 열쇠 기능, 나는 그들이 사용할 수 없다고 진정으로 믿는다 푸른 하늘에 큰 데이터 솔루션

또는 실제로 어떤 구름 그들은 우리가 가지고있는이 기능을 갖고 있지 않은 것처럼 세워짐 stornlg 용 레인저 플러그인 또는 데이터 호수 원활한 통합 그리고 우리는이 것들에 대한 데모도 보게 될 것입니다 이제 인증을위한 데모를 보도록하겠습니다

괜찮아 먼저 여기 보여 드리죠 hdi 사용자를 사용하여 llap 클러스터에 로그인하십시오 내가 llap에 갈 때, 나는 admin 노트북을 말하고 관리자에게 간다 Notebook 나는 공급자로부터 엄선 된 별을 실었습니다

공급 업체 테이블에는 데이터 법칙이 있지만 일부 공급 업체 이름 인 데이터 및 공급 업체 담당자 이들은 민감한 정보입니다 이 표와 마찬가지로이 열, 그리고이 칼럼 그리고 관리자로서 저는 정말로하지 않습니다 모든 민감한 데이터에 액세스 할 수있는 데이터 과학자를 원합니다 그래서 내가 할 수있는 것은, 나는 클러스터에 가서 레인저를 추가 할 수있다

그 정책 레인저 정책에 갈 수 있어요 레인져를 찾으러 가자 레인저에서 이제 내가 공유하는 단일 레인저 데이터베이스를 사용하고 있음을 주목하십시오 4 개의 다른 클러스터 사이

당신이 털실 정책을 보는 경우에, 4 개의 다른 클러스터에 대해 4 개의 다른 리포지토리가 있습니다 그러나 하이브에 여기에서 눈치 채실 수 있다면, 일반적인 보관소가 있습니다 그래서 나는 레인저 정책을 공유하고 있다는 것을 의미합니다 레인저 정책은 모두 단일 데이터베이스에 있으며 모두 공유됩니다 4 개의 다른 클러스터 사이

클러스터가 다운되거나 클러스터가 다시 나타나거나 클러스터를 삭제하고 다시 생성하면 그들은 동일한 위험 데이터베이스에서 시작할 것입니다 원활하게 다시 시작하면 그들이 레인저 정책 따라서 클러스터를 삭제할 때, 귀하의 정책은 정책을 작성하기 위해 수행 한 모든 노력이 필요하지 않습니다 떨어져 그럼 하이브 정책에 가자

그리고 공급자 테이블이라는 정책을 만들었습니다 공급자 테이블을 보자 정책 이 정책에서 에 대한 기본 데이터베이스에있는 공급 업체 테이블을위한 것입니다 공급 업체 테이블, 모든 컬럼에 대한 액세스 권한, hadoop에 대한 액세스 권한 부여 사용자 그룹 어떻게 hadoop 사용자 그룹은 4 명의 데이터 과학자 중 1 명에서 4 명까지의 그룹

즉, 나는이 데이터 과학자들 모두에게 선택 권한을주고 있음을 의미합니다 공급 업체 테이블 그러나 기억한다면 민감한 데이터 인 두 개의 열은 이름 열이었고, 연락처 열의 지점 관리자가 할 수있는 일은 이 제외를 변경하고 이름에 대한 액세스를 제외하십시오 열 또는 접촉점 열

그것은 하나의 가능성입니다 그리고 데이터 과학자 1 액세스가 거부 될 해당 열에 액세스를 시도합니다 그러나 그것을하는 더 좋은 방법이 있습니다 데이터 마스킹 그럼 네가 간다면 – 너라면 데이터 마스킹을 보면 내가 작성한 두 가지 정책이 있습니다

공급 업체 이름 및 공급 업체 담당자 그래서 당신에게 정책을 보여 드리겠습니다 공급자 관점에서 연락처, 기본적으로 정책을 작성했습니다 공급 업체 테이블 및 연락처에 대한 데이터베이스 열, 마스크 아웃 또는 모든 값을 해시합니다 hadoop 사용자 그룹에 속한 사람

그래서 이것이 실제로 의미하는 것은 데이터 과학자 1이 가서이 열의 값을보고 실행하면됩니다 실제 가치를 보지 못했지만, 그는 단지 왜곡 된 것을 볼 것입니다 가치 그리고하자 저것을 여기에서 봐라

나는 같은 것에 로그인했다 데이터 과학자를 사용하는 클러스터 (Cluster using data scientist) 1 이는 일종의 보안 데모입니다 그리고 만약 내가 사용자 데이터 과학자 1로 간다면, 내가 주목한다면 하나, 너 내가 볼 수있을거야 열, 총 주문, 카테고리 및 총 주문 수는 있지만 하이브로 이동하면 액세스하려고 시도합니다

공급 업체의 별을 선택하면 어떤 일이 발생하는지 봅시다 자, 하이브 뷰로가 봅시다 데이터 과학자로 로그인했습니다 1 그리고 내가 스타를 선택하면 공급자

결과가 표시되면 결과, 데이터 과학자는 모든 컬럼에 액세스 할 수 있으며, 어느 것이 었습니다 그러나 공급자 이름 열, 그리고 연락처 열의 지점, 값은 모두 해치입니다 예? [in undestion] >> 이것은 대화 형 하이브 클러스터입니다 예, 이것은 대화식입니다 하이브 클러스터

괜찮아 괜찮아 그래서 레인저 정책을 어떻게 만들 수 있는지 보았습니다 파일 및 폴더 표시 수준 사용 권한 데모 그래서, 이것은 blob 매장 계정입니다

나는 다른 모든 클러스터 사이에서 공유하고 있습니다 네 개의 클러스터 모두 BLOB 저장소 계정을 공유하고 있습니다 내가 전에 말한 것은 우리의 데이터가 외부화 된 것입니다 데이터의 고기는 여기에 머물러 있습니다 실제로 내가 만든 샘플 컨테이너는 사용자 데이터라고 불렀습니다

그리고 사용자 데이터에 나는 ds1 폴더가 있고 ds1 폴더에 있습니다 salesCsv라는 파일이 있습니다 이제 BLOB 저장소에는 없습니다 어떤 파일 및 폴더 수준의 권한이 내장되어 있습니까? 그러나 레인저에 가면 실제로 점화 스파크 데모 클러스터입니다

그래서 레인저에, 내가 갈 때, 나는 두 가지 다른 정책을 만들었습니다 ds1 폴더 이러한 정책을 살펴 보겠습니다 이 정책은 스토리지 계정에 대해 hds 보안 데모 컨테이너 사용자의 저장소 (이 저장소 계정) 이 컨테이너 인 데이터 ds1의 상대 경로에있는 항목은 사용자 ds1 또는 데이터 과학자 1은 읽기 / 쓰기가 가능합니다 접속하다

다른 사용자가 ds1 폴더 아래에있는 파일에 대한 액세스 권한이 있어야합니다 그래서 이것이 실제로 무엇을 의미합니까? 그렇게 할 때 나는 가자 보자 그래서 클러스터에 가면 점화 데모, 클러스터를 켜고, 제플린에 로그인 할 때 ds1 폴더를 사용하여 아주 간단한 스파크를 실행하고 있습니다 이 텍스트 파일을 읽거나이 csv 파일을 읽는 Command 행 수를 센다

자,이 파일을 보면, 또는이 명령을 보면 ds1 판매를 읽고있는 곳입니다 파일, 그리고 내가 114,000있다 레코드를 검색 할 수 있습니다 레코드가 생성되었습니다 그게 내가 읽을 수 있다는 뜻이야 파일 ds1 폴더로 로그인했습니다

이제 ds2 또는 데이터 과학자로 로그인했는지 확인해 봅시다 같은 클러스터에 2 개, 그리고 나는 제플린에 간다 나는 달려 가려고 노력한다 같은 명령 내가 똑같이 달릴 때

데이터 과학자 2로 로그인하면 명령을 받게됩니다 내가 예외 승인을 얻고 나 파일 상태 가져 오기, 파일 상태 가져 오기 조작이 허용되지 않습니다 그래서 우리가 파일과 폴더 레벨을 얻는 방법입니다 우리가 만든 레인저 플러그인을 사용하여 권한 다시 너에게 wasb에 대한 레인저 플러그인을 보여주기 위해 이것은 우리가 만든 정책

많은 정책이 있습니다 우리는 이미 창조했고, 그들은 모두 레인저에서 와프 플러그를 연결하십시오 괜찮아 다음으로 넘어 갑시다 데모 – 세그먼트의 세그먼트? 계속해라

[들리지 않는 질문] 예 따라서 규정 준수는 완전히 다른 측면입니다 그러나이 기능이 모두 사용 가능할 때 미리보기 중입니다 이것이 지리적으로 갈 때, 우리는 모든 규정 준수가 가능합니다 Hdinsight, 보시다시피

푸른 문서에 Hdinsight의 페이지가 이미 있습니다 많은 컴플라이언스 정책을 지원합니다 그러나 보안 기능 – 지금까지 다른 질문이 있습니까? 좋아, 그럼 내가 원하는 곳에 다음 세그먼트로 넘어 갑시다 adls 및 데이터 호수 보안 데모를 보여줍니다 그리고 hd 통찰력 클러스터가 데이터 링크를 사용하여 어떻게 생성되는지 기능

그래서 나는 여기에 새로운 세입자가있다 안전한 방랑자라고 불리는 이유는 내가 앞서 언급했듯이 고객이 다중 사용자 인증 또는 다중 사용자 인증을해서는 안됩니다 이 클러스터에서 나는 새로운 세입자와 저는 두 명의 서로 다른 사용자, 광고 목록 테스트 및 얼룩 테스트 이것은 데이터 레이크 스토어 데모입니다 그리고 사용자 폴더에 사용자 폴더가 있습니다

Alice 테스트 폴더와 Bob 테스트 폴더 alice 테스트 폴더에는 파일은 customerCsv라고하고 만약 내가 당신에게 그것의 접근을 보여 주면 파일, 그것은 밥 테스트에만 액세스 할 수 없습니다 그것은 단지 그 파일에 대한 실행 권한을 가지고 있습니다 앨리스 테스트와 달리이 파일에 대한 모든 액세스 권한이 있습니다

이제는 이미 생성 된 클러스터가 hdi입니다 보안 데모 이 클러스터가 생성됩니다 이것은 프리미엄 스파크 클러스터이며 그는 데이터 레이크 스토어를 기본 데이터 호수 -이 클러스터의 기본 저장소입니다 예를 들어 say bob test를 사용하여이 클러스터에 로그온하면, 그리고 내가 높은 전망에 갈 때, 그리고 내가 테이블을 만들려고 노력하면, 어떤 고객을 기반으로합니다

Csv, 실패해야합니다 그래서, 다시 customerCsv는 alice user의 소유입니다 Bob님께는에 대한 액세스 권한이 없습니다 그것

그래서, 그냥 만들어 보자 명령 그리고 이것이 당신에게 보여줍니다 기본적으로 몇 가지 다른 열을 사용하여 customer라는 외부 테이블을 생성합니다 이 테이블의 위치는 hdi security demo

Datalake store / user / alice test입니다 이 명령을 실행하려고하면이 명령이 실패 할 것이고 실제로 실패했습니다 그리고 내가 실패를 볼 때 더 높은 액세스 제어 예외 권한이 거부되었습니다 사용자 bob 테스트가 해당 파일에 대한 모든 권한을 폴더에 가지고 있지 않기 때문입니다 그래서 이것을 사용하는 것은 우리가 보여주는 것과 같습니다

Adls와 파일 및 폴더 사용 권한을 adls 및 hdinsight 클러스터를 만들면 해당 파일과 폴더 사용 권한을 존중할 것입니다 클러스터 앨리스 테스트가 실행될 예정이면 동일한 명령, 동일한 명령이 잘 실행되지만, alice 테스트는 해당 파일에 대한 완전한 액세스 권한을 가지고 있기 때문에 데이터 호수 저장소에있는 폴더 내가 마지막으로 한 가지가있다 Zeppelin에서 당신을 보여주고 싶었습니다

제플린에 대한 메모 사용 권한은 무엇입니까? 그래서 여기에 나는로 로그인했습니다 Zaith 과학자 1 명입니다 그리고 zeppelin에는 이제 다중 사용자가 있습니다 기능 및 메모 권한이 있습니다 그래서 예를 들어, 여기 저쪽에 데이터 – 소유주는 데이터 과학자 1입니다

작가가 데이터 과학자 1이라고 말하면 리더는 데이터 과학자 1이기도하다 데이터 과학자 1 명의 사용자에게만 공개됩니다 다른 사용자는이 노트북을 볼 수 없습니다 이 노트북에서 실행되는 코드를 실행하거나 실행하십시오 이것이 관리자가 공동 작업을 수행하는 방법입니다

노트북도 좋아, 다시 고객 시나리오 이제 고객의 다음 세트 시나리오는 암호화입니다 데이터 중 우리가 시나리오를 보았을 때 그들은 모두 하나로 단단해졌습니다

내 데이터를 원하는 단일 문장 항상 암호화되어 전송 중입니다 이것이 의미하는 바는 이전에 언급했듯이, 스토리지뿐만 아니라 데이터 호수 저장소 이 두 스토리지 계정은 모두 서버 전송을 지원합니다 암호화 주소 어떤 데이터가 있다면 하늘 저장소에 있습니다

마이크로 소프트 키를 사용하여 암호화 할 수 있습니다 또는 하늘색 키보드에있는 자신의 키를 사용하십시오 데이터 레이크 매장에서도 마찬가지입니다 따라서 Microsoft 직원이 근무하는 경우 도적질하고 데이터 센터에 가서 하드 드라이브를 훔쳐 간다 하드 드라이브로는 아무 것도 할 수 없습니다

데이터는 모두 암호화 됨 이제 일부 고객은 묻습니다 전송 중에도 암호화가 가능합니다 그리고 우리는에서 암호화를 지원합니다 Transit

따라서 고객이 명령을 실행하고 있다면 이 명령 – 또는 클러스터 연결은 hdps를 통해서만 가능합니다 우리는 tl 12를 사용하려고했습니다 가능할 때뿐만 아니라 질문하기 – hdinsight 클러스터에 대한 요청을받는 중 그러나 요청은 얼룩 저장고와 데이터 호수로 나갈 것입니다 그들이 안전한 채널에서 나간다

요청은 blob 저장소로 이동합니다 우리는 프로토콜 및 데이터 호수 저장소에 대해 우리는 adl 프로토콜을 사용합니다 요약하자면, 우리는 네 가지 보안 측면 그래서 우리는 가상 네트워크 및 네트워크를 사용한 보안 검색 보안 그룹, 방화벽 규칙 우리는 또한 봉사를 보았다

터널링, 하늘색 방울 저장소 또는 방울 저장소가 어떻게 그렇게 blob 저장소에 세입자를 만들면 특정 가상 네트워크 및 해당 네트워크의 리소스 BLOB 저장소에 대한 전체 액세스 권한 다중 사용자 인증을 살펴 보았습니다 모든 표준 클러스터에서 사용할 수 있습니다 클러스터 유형은 모두 로컬 사용자입니다 하늘색 다이브 디렉토리를 사용하는 다중 사용자 인증 및 프리미엄 클러스터에서 모두 사용할 수 있습니다

이는 hadoop, llap 및 spark 클러스터 유형에서 사용할 수 있습니다 그런 다음 apache ranger를 사용하여 감사 및 권한 부여를 살펴 보았습니다 감사 및 권한 부여에는 두 가지 유형이 있습니다 다시 첫 번째는 게시 승인입니다 ambari에서 가능합니다

에 6 가지 역할이 있습니다 어떤 권한이 발생할 수 있습니다 그리고 사용 권한이 있습니다 아파치 레인저 우리는 아파치가 널 보았다는 것을 알았다

하이브에 대한 정책을 만들 수 있습니다 Hadoop 클러스터, 대화 형 클러스터 및 스파크 SQL 명령 그리고 우리가 보았던 마지막 파일 및 폴더 posix에서 권한 부여 Acls 우리는 레인저 플러그인, 데이터 레이크 저장을 위해 우리는 이러한 파일 및 폴더 수준 사용 권한 마지막으로 데이터 암호화를 살펴 보았습니다

이것은 서버 측 암호화처럼 사용 가능합니다 데이터 저장소, 전송 중 암호화 모두에 사용할 수 있습니다 또한 https를 사용하고 있습니다 하나의 마지막 조각이있다 임시 또는 스크래치를 암호화하는 암호화 암호화중인 데이터 – VM 디스크에있는 데이터

우리는 이러한 기능을 수행하기 위해 노력하고 있습니다 로드맵에 있습니다 기능은 다음과 같습니다 지금 미리보기에서 사용할 수 있습니다 우리는 사용자 경험이 극도로 빠졌는지 확인하십시오

매끄럽고 사용하기 쉽습니다 그래서 우리가 작업하고있는 이유입니다 기능을 재평가하기 전에 사용자를 원활하게 만듭니다 이미이 제품을 사용하기 시작한 고객이 있습니다 기능성, 미리보기에 있음에도 불구하고

일부 고객은 많이 사용하고 있습니다 그리고 고객 중 한 명이 하니웰입니다 하니웰의 견적입니다 데이터 엔지니어링 이사 그는 실제로 이곳에 있기를 원했습니다

프레젠테이션의 일부로 그는 건축물을 보여주고 싶었습니다 어떤 하니웰이 만들었습니까? 하지만 불행히도 그가 탈퇴해야하는 몇 가지 개인적인 이유 하지만 나는 그의 견적을 읽을 것이다 큰 데이터 플랫폼으로서의 Hdinsight 과학자들이 데이터 개발 및 인프라 관리보다는 제품 분석 매일 문제를 해결하는 데 문제가 있습니다 설치의 무거움 클러스터 관리 및 강력한 보안 제공 Apache ranger, 데이터 암호화, 모니터링 및 확장 및 스케일 다운은 모두 hdinsight가 담당합니다

이 양식은 다양한 용도로 사용됩니다 실시간 스트리밍, 기계 학습, 시각화, etl 전체적으로 매우 긍정적 인 엔지니어링 지원 팀과의 경험 그래서 우리는이 견적을주는 것에 대해 하니웰에게 매우 감사하고 있습니다 마지막으로, 행동 촉구를 원한다면 푸른 하늘로 시작해야합니다

우리는 푸른 하늘에서 사용할 수있는 많은 문서를 가지고 있습니다 우리는 실험실을 이용할 수있는 많은 훈련을 이용할 수 있습니다 가능한 코스가 있습니다 그래서 너는 갈 수 있고 너는 얻을 수있다 그들에 대해 아주 쉽게 배울 수 있습니다

의견이 있으시면 언제든지 알려 주시기 바랍니다 hdinsight@microsoftCom을 사용하여 의견을 제공하십시오 그리고 우리에게 어느 곳으로나 접근 할 수 있습니다 언제든지 원하는 시간

이 세션을 평가 해주십시오 너는 그것을 좋아한다 그게 내가 가진 전부입니다 주위에

Oracle Big Data Preparation Cloud Service: Product Tour

[음악] Oracle Big Data Preparation Cloud Service는 사용하기 쉽고 편리한 사용자 인터페이스를 제공합니다 홈 페이지는 현재 상태로 서비스에서 실행중인 작업 수에 대한 요약을 제공합니다

생성 된 소스의 수와 사용량; 및 서비스에 의해 처리되는 행 및 변환의 총 수 이 통계는 일별, 주별 또는 월별로 볼 수 있습니다 Big Data Preparation Cloud Service는 데이터 분석가 또는 관리자로 이용할 수 있습니다 관리자 역할을 통해 내 서비스의 모든 사용자와 활동에 의해 생성 된 개체를 볼 수 있습니다 데이터 분석가로서, 나는 단지 내 물건과 내 활동을 서비스에서 본다

원본 또는 변형을 만들거나 빠른 시작 섹션에서 데이터를 업로드합니다 작업에 도움이 필요하면 짧은 비디오를 사용할 수 있습니다 추가 도움말은 참고 자료 섹션에서 볼 수 있습니다 활동 스트림을 통해 서비스 내의 모든 페이지에서 서비스 엔진 프로세스의 상태를 모니터링 할 수 있습니다 작업 페이지에는 모든 작업에 대한 상세 정보가 표시된 보고서가 표시됩니다

작업 상태를 기반으로 보고서를 필터링하고 날짜 또는 이름순으로 정렬 할 수 있습니다 카탈로그 페이지에서 서비스에서 생성 된 모든 소스 및 변환 목록을 봅니다 아이콘은 객체가 변형인지 소스인지 나타내는 데 사용됩니다 각 항목에는 변환 또는 소스를 편집, 이름 바꾸기 또는 삭제할 수있는 컨텍스트 메뉴가 있습니다 이 메뉴를 사용하여 변형을 게시 할 수도 있습니다

변환이나 소스를 만들고 데이터 파일을 업로드하거나 다운로드 할 수 있습니다 변환이 생성 된 후 제작 페이지에서 봅니다 제작 페이지는 강력하고 사용자 친화적 인 인터페이스로 내 데이터 세트를 복구하고 풍부하게 해줍니다 지식 페이지에는 클러스터의 사용자가 서비스에 추가 한 모든 사용자 지정 참조 지식 파일이 나열됩니다 새로운 참조 지식 파일을 추가하여 데이터 세트를 풍부하게 만들 수 있습니다

마지막으로, 변환 스크립트를 작성한 후, 정책 페이지를 사용하여 변환 프로세스를 작성하고 자동화합니다 내가 작성한 모든 정책은 대화식 보고서에 나열됩니다 시청 해주셔서 감사합니다 자세한 내용을 보려면 클라우드 도트 oracle dot com에서 온라인으로 방문하십시오 [음악]