Rethinking Big Data Analytics with Google Cloud (Cloud Next ’18)

[음악 재생] 신사 숙녀 여러분, 안녕하세요 Sudhir Hasbe를 환영합니다

[박수 갈채] 안녕하세요, 안녕하세요 나는 Surhir Hasbe입니다 저는 데이터 분석 및 GCP 제품 책임자입니다 이 세션에 참석해 주셔서 감사합니다 나는 그것이 점심 식사 후 또는 점심 시간 전후 인 것을 안다

그래서 나는이 세션에서 당신을 너무 지루하게하지 않기를 바랍니다 우리는 계속 흥미로워 질 것입니다 세션을 시작해 봅시다 중요한 것은 대부분의 사람들입니다 관객의 외부는 검색 창에서 Google을 알고 있습니다

그리고 사람들이 Google과 처음 접하는 경험은, 검색 창으로 이동하고, 용어를 검색하고, 흥미로운 결과가 나옵니다 당신이 찾고있는 사실, 뒤에서, 언제 당신은 수색 상자에 아무거나를 찾는다, 인프라가 많이 있습니다 이미 많은 분석이 진행 중입니다 우리는 가장 큰 조직 중 하나입니다 엄청난 양의 데이터를 수집하고, 그것을 분석하고 그것을 사용합니다

그래도 검색뿐이 아닙니다 보시다시피, 우리는 7 가지 이상의 제품을 가지고 있습니다 오늘 기조 연설에서 드라이브로는 여덟 번째 드라이브가있을 수 있습니다 80 억 명의 사용자, 월간 활성 사용자, 앞으로 여기서 핵심은 우리의 DNA에 큰 데이터가 있다는 것입니다

우리는 데이터를 활용합니다 우리는 기계 학습을 활용하여 이러한 모든 제품에 놀라운 경험을 제공합니다 우리가하는 일은 내부 기술을 통해서입니다 우리가 만든 것 Dremel에 대해 생각한다면, 우리는 모든 분석을 위해 내부적으로 사용합니다

BigQuery는 실제로 엔터프라이즈 버전입니다 기술의 그 동일한 조각의 기업에서 사용할 수 있습니다 여기에서 우리가하는 일은 기술을 가져 오는 것입니다 우리가 수년에 걸쳐 투자하고 클라우드 고객에게 제공됩니다 생각해 보면 전 세계의 데이터가 커지고 있습니다

2025 년에는 163 제타 바이트가 될 것입니다 조직 내에서 데이터 세트가 증가함에 따라, 인프라가 필요합니다 당신은 실제로 분석 능력을 갖기를 원합니다 그 양의 데이터를 처리하십시오 데이터 포인트 중 하나 – 고객 중 한 명 정말로, 그들이 데이터를 시작했을 때 컬렉션 및 스트리밍 분석 양방향 항공, 그들은 하루에 5 천만 개의 이벤트를 수집하는 데 사용되었습니다

이제 그들은 18 개월 내에 최대 50 억입니다 따라서 어떤 일이 발생하는지는 데이터에서 가치를보기 시작하면서, 당신은 점점 더 많이 수집 할 것입니다 하지만 능력과 인프라를 원한다 필요에 따라 실제로 원활하게 확장 할 수 있습니다 조직 내에서 마찬가지로 조사가 완료되었습니다

MIT 조사는 기계 학습과 인공 지능 (AI) 사용중인 고객 수, 진행 상황 중요한 것은 조직 실제로 AI를 사용하는 사람들은 2 배 빠르게 할 수 있습니다 의사 결정, 5 배 빠른 결정 2 배 더 많은 데이터 중심 의사 결정을 할 수 있습니다 조직 내에서 그리고 또한 그들이 내리는 결정에 대해 3 배 빠른 실행 전반적으로 생각하면 기계 학습, AI는 모든 조직에서 매우 중요합니다

그리고 핵심 포인트는, 조직이 분석을 잘하지 못하는 경우, AI에서는 결코 위대한 존재가 될 수 없습니다 그래서 첫 번째, 기초 – 분석 데이터를 기반으로해야합니다 어떻게 데이터를 처리합니까? 어떻게 데이터를 분석합니까? 그리고 나서 어떻게 진행되는지 생각할 수 있습니다 해당 데이터를 바탕으로 기계 학습을 수행하고 활용할 수 있습니다 차별화를위한 AI

비록 숫자를 보면, 1 % 세계의 구조화되지 않은 데이터는 실제로 오늘날 분석 및 분석에 사용됩니다 오늘 분석 된 구조화 된 데이터의 50 % 미만 조직 내에서 그래서 우리의 접근 방식은 무엇입니까? Google을 보면, 우리는 무엇을하고 있습니까? 네 가지 핵심 요소가 있습니다 하나는 인프라 또는 솔루션에 초점을 맞추고 있습니다 당신이 나가서 분석에 집중할 수있게 해줍니다

하부 구조 우리는 그것에 대해 더 이야기 할 것입니다 두 번째는 포괄적 인 솔루션을 개발하는 것입니다 따라서 우리는 고객이 솔루션의 전체 포트폴리오를 필요로한다는 것을 알고 있습니다 계속해서 분석을해라

우리는 엔드 투 엔드 (end-to-end), 모든 구성 요소 너는 필요해 종단 간 ML 수명주기를 살펴보고이를 빠르게 살펴 보겠습니다 그리고 나서 혁신적이고 개방적입니다 열린 구름이되어 오픈 소스 소프트웨어 옵션 제공 작업 부하를 당신과 같은 방식으로 실행할 수 있습니다 달리기를 원한다면 우리에게 매우 중요합니다

우리에게는 우리가하는 많은 투자가 있습니다 우리가 그것을 장려하는지 확인합니다 분석적 수단에 초점을 맞추는 것에 대해 이야기 해 봅시다 인프라가 아닙니다 네가 우리에 관해 생각한다면 – 분석을한다면 Google의 클라우드 스케일 인 BigQuery [INAUDIBLE] 제품을 사용하면 몇 초 안에 시작할 수 있습니다

기본적으로 데이터 세트를 가져올 수 있습니다 즉시 분석을 시작하십시오 핵심은 서버리스 제품을 사용하지 않는 경우입니다 BigQuery 또는 Dataflow처럼 모니터링에 대해 걱정해야한다 실적에 대해 걱정해야한다

튜닝, 인프라 얼마나 많은 노드가 필요합니까? 어떤 종류의 클러스터 크기가 필요합니까? 퍼포먼스 튜닝은 어떻게합니까? 그게 문제가되는 건 아니야 serverless에 집중했다 이것이 우리의 초점입니다 인프라를 제공하고자합니다

자동 저울링, 분석 능력 제공, 너는 무엇이든에 관하여 고민 할 필요 없다 데이터를 가져 와서 분석을 시작하십시오 두 번째 요점에 대해 이야기 해 봅시다 엔드 – 투 – 엔드 종합 솔루션입니다 중요한 점은 분석에 대해 생각하면, 그것은 실제로 섭취로 시작됩니다

데이터를 얻으려면 어떻게해야합니까? 첫 번째 단계는 스트리밍 데이터를 얻는 방법입니다 방대한 양의 스트리밍을 사용하는 고객이 많습니다 그들에게 오는 사건들 그리고이 인프라를 어떻게 완벽하게 확장합니까? 그래서 Cloud Pub / Sub는 우리의 솔루션입니다 초당 수백만 개의 이벤트를 수행 할 수 있습니다

그 (것)들에 당신은 수집하고 분석을 할 수있다 마찬가지로 많은 고객 예를 들어, 애드워즈 및 DoubleClick과 그 모든 기능, 광고 목적으로 우리가 한 일은 우리가 고객을 위해 정말 쉽게 만들었습니다 누가 마케팅 분석을 위해 Google Cloud를 사용하고 싶은지 몇 번의 클릭만으로 문자 그대로 애드워즈 데이터, DoubleClick 데이터, 분석을 위해 BigQuery에 추가합니다 마찬가지로, IoT는 매우 중요합니다

어제 아침 놀라운 소식을 봤어 HTPU 및 Cloud IoT 코어를 사용합니다 우리는 Cloud IoT 코스를 가지고 있습니다 IoT 데이터 수집에 관심이 있다면, 당신은 그것을 완벽하게 수집 할 수 있고 실제로 거기에서 전체 플랫폼을 활용하십시오 그래서 우리는 섭취를 다루었습니다

안정적인 데이터 처리 및 스트리밍에 대해 생각한다면 우리는 고객에게 다양한 옵션을 제공합니다 하나는 Beam을 사용한 데이터 흐름입니다 그래서 Beam은 당신을위한 오픈 소스 SDK입니다 배치 및 스트리밍 파이프 라인 구축 동일한 프로그래밍 모델로 데이터 흐름을 사용하면 대규모 데이터 처리를 자동으로 구축 할 수 있습니다 파이프 라인

개발자에게 아주 좋습니다 그러나 우리는 또한 많은 고객들이 Spark 및 Hadoop으로 자체 기능을 보유하고 있습니다 그리고 그들은 스파크를 좋아합니다 이전에 Spark를 사용 했었습니다 그래서 저는 스파크도 좋아합니다

그래서 우리는 Hadoop과 Spark 환경을 관리했습니다 데이터 블록으로 그리고 나서 분석가들을 위해 – 우리는 알고 있습니다 데이터에 익숙한 많은 분석가 커뮤니티가 또한 원시 데이터 논쟁을 원한다 또한 데이터 준비를 원한다

데이터가 있기 전에 그들이 가장 잘 알도록 그들이 원하는 분석을 사용했다 데이터를 처리하고 정리합니다 그래서 우리는 이러한 고객을 위해 Cloud Dataprep을 보유하고 있습니다 그 후에 데이터가 준비되면, 당신은 규모에 대한 분석을 원합니다 데이터 호수를 만들고 싶습니다

실제로 GCS, Google Cloud Storage, 계속해서 모든 구조화되고 체계화되지 않은 데이터를 저장하고, 그런 다음 처리하십시오 또는 BigQuery와 함께 Cloud Scale 데이터웨어 하우스를 사용할 수 있습니다 이 모든 데이터를 페타 바이트 단위로 저장하려면, 그 위에 분석을하십시오 일단 분석 플랫폼이 준비되면 고급 분석을 위해 ML 엔진, TensorFlow를 사용할 수 있습니다 시각화를 위해 Data Studio를 사용할 수 있습니다

우리는 몇 가지 새로운 개선 사항을 보게 될 것입니다 그것들을 이용할 수있게 만들고 있습니다 또한 Sheets, 많은 고객, 특히 매일 시트를 사용하는 G Suite 고객 – 우리는 BigQuery 및 기타 장소에서 데이터를 쉽게 만들 수 있습니다 오늘 이용 가능합니다 그래서 거기에 있습니다

ML 수명주기에 대해 생각한다면 – 전체 라이프 사이클이 있습니다 ML 라이프 사이클은 섭취에서 시작됩니다 당신은 탐험해야합니다 준비를해야합니다 당신은 전처리를해야합니다

그런 다음 교육 과정, 하이퍼 튜닝, 테스트, 및 예측 일어날 수있는 전체 라이프 사이클이 있습니다 우리가 제공하는 것은 전체 제품군입니다 당신이 할 수있는 제품의 그 모든 프로세스 하지만 우리가하고있는 일은 매우 쉽습니다

당신이 기계 학습을 할 수 있도록 그리고 당신은 몇몇 발표를 들었습니다 우리는 오늘 일찍했다 그리고 좀 더 자세하게 설명하겠습니다 실제로, 우리는 당신을위한 놀라운 데모를 가지고 있습니다

세션에서 나중에 고객 모멘텀 관점에서 볼 때, 그것은 우리의 포트폴리오입니다 우리는 데이터 분석에서 엄청난 성장을보고 있습니다 고객과 함께하십시오 업계 전체의 전체 포트폴리오를 사용하는 많은 고객 금융 서비스에서의 수직 소매업, 게임에서 미디어 엔터테인먼트, 모든면에서 제조

전반적으로 우리는 엄청난 성장을보고 있습니다 사용중인 데이터 분석 기능 다른 조직에서 그리고 다른 크기의 데이터 세트에도 적용됩니다 오늘 일찍 들었습니까? [부적절한] 대규모 Hadoop 배포를 옮기는 것에 대해 이야기했습니다 나는 그것이 300 페타 바이트의 데이터를 언급했다고 생각한다

GCP로 이동하고 해당 규모의 클러스터를 실행합니다 그리고 하이라이트는 우리 네트워크와 우리의 능력과 같았습니다 네트워킹 스택과 함께 제공되는 당신이 스토리지 분리 정말 쉽게 관리 할 수있는 컴퓨팅 전체 환경, 비용 및 모든 것을 줄일 수 있습니다 우리는 엄청난 성장을보고 있습니다 트위터, 야후 스, 뿐만 아니라 많은 기업 고객 플랫폼을 사용하고 있습니다

그래서 저와 함께 Aireen Omar를 초대하겠습니다 AirAsia의 부회장, 무대에서 이것에 대해 더 많이 말하기 [박수 갈채] 안녕하세요, 아이린, 잘 지냈니? AIREEN OMAR : 안녕하세요, 감사합니다 네가 빨리 소개 할 수 있니? 당신, 당신의 역할에 대해 이야기하고, AirAsia에 대해 좀 더 알려주십시오 AIREEN OMAR : 물론입니다

AirAsia는 아시아 최대의 저비용 항공사입니다 그래서 우리는 2001 년에 다시 시작했습니다 우리는 단지 2 대의 항공기를 가지고 있습니다 우리는 약 2 만명의 승객을 태웠다 그리고 지금, 16 년 후 우리는 230 대 이상의 항공기를 보유하게되었습니다

와우 와우 AIREEN OMAR : 그리고 수년 동안, 우리는 5 억 명이 넘는 승객을 태웠다 올해는 약 1 천 9 백만 명의 승객을 찾고 있습니다 우리가 1 년에 들고 다니는 것

그래서 우리는 매우 빠르게 성장했습니다 우리는 동남 아시아에 기지를두고 있습니다 동남 아시아, 아세안은 우리의 뒷마당입니다 그리고 왜 우리가 시장을 구축하는데 집중했는지 6 억이 넘기 때문에 인구는 중국과 인도 다음으로 세 번째로 많습니다 그리고 그것은 매우 젊은 인구 기반을 가지고 있습니다

평균 나이는 28 세, 29 세입니다 인구의 50 %가 30 세 미만입니다 70 %는 40 세 이하입니다 인구의 50 %가 도시 지역에 살고 있습니다 그리고 그것은 가장 빠르게 성장하는 것 중 하나입니다

세계 GDP와 급성장하는 중간 소득 중 하나 세계의 수입자 SS의 저가 항공사가 환상적인 기회를 누릴 수있는 곳입니다 인구와 함께 성장할 수 있습니다 그리고 당신이 지형 경관을 본다면 동남 아시아의 경우 물로 둘러싸여 있습니다 그리고 그것은 우리가 배울 수있는 많은 기회가 있다고 생각하는 곳입니다

인구에 대해, 더 성장하고 차별화 된 비즈니스 기회 항공사를 운영하는 것에서 SUDHIR HASBE : 엄청난 성장 2 비행기에서 230 비행기로 2 ~ 3 년 안에, 지금 AIREEN OMAR : 네 SUDHIR HASBE : 직면 한 주요 도전 과제는 무엇입니까? 그런 다음 무엇에 대해 자세히 알려주십시오 비즈니스 과제였습니다

그리고 그 중 일부에 Google Cloud를 어떻게 사용하고 있습니까? AIREEN OMAR : 핵심 과제는 우리는 여러 나라에서 사업을 운영하고 있기 때문에 말레이시아, 태국, 인도네시아, 필리핀, 최근 인도와 일본에서도 그리고 우리는 모든 사람으로부터 데이터를 얻는 방법을 찾고 있습니다 이상, 다양한 시스템에서, 등등 그래서 우리는 예약 시스템에서 오는 데이터를 가지고 있습니다 우리 예약의 80 %가 인터넷을 통해 간다 다른 항공사와 달리 모바일 앱은 그것은 다른 방향입니다

그리고 우리 항공기에서 오는 데이터가 있습니다 그리고 우리 엔진에서 그리고 우리 항공기를 가장 효율적으로 사용합니다 우리는 가동률을 극대화합니다 우리가 사용하는 8020은 하루에 14 시간 비행합니다

그리고 우리는 25 분 안에 돌아 서서 우리가 들어갈 수 있습니다 우리가 할 수있는만큼 많은 분야 그룹 전체를 보면 출발 항공편에 대해서는 약 1,500 일이 소요됩니다 그리고 우리는 약 300,000 명의 승객을보고 있습니다 하루에

따라서 많은 데이터가 제공됩니다 그리고 중요한 것은 효율적인 운영을하고 있으며, 당신은 그것이 정확해야합니다 그리고 당신은 확장 가능하고 정확한 무언가가 필요합니다 우리가 이해할 수있게 이 데이터가 더 우수하고 게재에 더 집중할 수 있어야합니다 우리의 소비자는 더 낫다

따라서 우리가 필요로하는 데이터는 실제로 더 많습니다 우리는 소비자의 경험과 수익을 어떻게 개선 할 것인가? 우리가 그들에게서 얻을 수있는 적절한 종류의 제품 및 제품을 제공 할 수있다 그들을 위해? 또한이 데이터를 사용하여 사업 운영의 전반적인 운영 효율성 생산성을 높이기 위해 가장 효율적인 방법으로 집중할 수있다 통찰력을 바라 보는 우리의 노력 우리의 운영뿐만 아니라 행동 우리는 더 나은 제품을 제공 할 수 있도록 소비자의 헌금품 등? 알았어 BigQuery와 Data Studio를 사용하는 것을 알고 있습니다

Google Cloud의 다른 모든 도구가 포함됩니다 Google과 공유 할 수있는 주요 측정 항목이 있습니까? 당신은 정말로 성장과 저축을 보았습니다 청중과 함께 할 일이 있습니까? AIREEN OMAR : 네 그래서 나는 또한 디지털 변환을 담당하고 있습니다 따라서 핵심은 우리가이 모든 데이터를 통합하는 것입니다

다양한 출처에서 데이터를 결합 할 수 있습니다 의미있는 알고리즘을 만들 수 있습니다 우리가 발견 한 것, 우리가 아마 우리가 이미 결합한 데이터의 20 % 미만, 수익 또는 소비자의 전환율 배가되었습니다 오, 와우 AIREEN OMAR : 전환율 1 %마다 실제로 약 5000 만 달러의 수익을 올렸다

기타 등등 그리고 우리가 본 것도 있습니다 운영 측면에서 더 잘 예측할 수 있으며, 유지 보수면에서 보면, 우리는 지상의 항공기 수를 줄였습니다 그리고 그것은 우리 승객들에게 더 나은 경험이라는 것을 의미합니다 기타 등등

그리고 우리는 비용이 아마도 적어도 10 % 정도 줄어 들었습니다 그리고 그것은 실제로 우리 작전에서 꽤 큰 것입니다 항공사 운영 SUDHIR HASBE : 놀랍습니다 특히 당신이 말한대로, 운영 비용이 많이 든다

그래서 10 % 절약, 전환율 두 배, 데이터의 20 % 만 사용하고 있습니다 AIREEN OMAR : 네 아마도 그보다 조금 작을 것입니다 우리는 불과 몇 년 전에 시작했기 때문에 그리고 할 일이 많아서 매우 중요합니다

BigQuery의 모든 요소를 ​​간소화 할 수 있습니다 그리고이 도구는 우리는 확장 성이 있으며 더 빨리 일할 수 있고, 소비자의 요구 사항에보다 중점을두고, 기타 등등 네 멋지네요 고맙습니다

고마워 AIREEN OMAR : 고마워 이것은 멋진 결과입니다 그리고 나는 우리가 함께 할 수있는 것을 고대하고있다 데이터의 20 % ~ 30 %, 100 % 당신이 말했듯이 그것을 분석하십시오

AIREEN OMAR : 고마워 고마워요, 아이린 AIREEN OMAR : 고마워 [박수 갈채] SUDHIR HASBE : AirAsia에 관한 것입니다 4 가지 핵심 영역이 있습니다

우리가 고객과 이야기 할 때 우리가 정상적으로 집중하는 다른 솔루션 포트폴리오를 사용할 때 우리가 가지고있는 하나는 물론 데이터웨어 하우스를 현대화하는 것입니다 그리고 우리는 그것에 대해 더 이야기 할 것입니다 매우 중요한 스트리밍 데이터 분석 엄청난 양의 이벤트 데이터를 수집하는 조직 다른 곳에서 – 클릭 스트림을 IoT 디바이스로 – 스트리밍 데이터 및 스트리밍 데이터 처리 조직에서 매우 중요합니다 오픈 소스 소프트웨어를 운영하고 물론, 시각적 인 방식으로 데이터 시각화 및 사용 조직에 중요합니다

BigQuery에 대해 잠시 이야기 해 보겠습니다 BigQuery는 실제로 클라우드 규모의 데이터웨어 하우스입니다 그것은 기본적으로 내장 된 것입니다 Dremel 종이를 읽지 않았다면, 당신은 그것을 조사해야합니다 처음부터 새로 구축 된 데이터웨어 하우스입니다

클라우드 규모입니다 몇 초 내에 페타 바이트 규모의 쿼리를 수행 할 수 있습니다 표준 SQL을 지원합니다 실제로 비용없이 시작할 수 있습니다 사용할 수있는 무료 티어가 있습니다

실제로 BigQuery를 사용하는 사람이 얼마나됩니까? 큰 많은 사람들이 그렇게하지 않기 때문에 내 추천 당신은 그것을 조사 해봐야 할 것입니다 몇 분이 걸릴거야 이동하여 실제로 데이터를 가져 와서 분석을 시작하십시오 내가 말했듯이, 완전히 서버리스

인프라에 대해 걱정할 필요가 없습니다 데이터를 가져 와서 분석을 시작하십시오 그것이 중요한 것입니다 그것은 매우 안전합니다 우리는 안심하고 데이터를 암호화합니다

그리고 그것은 매우 유용합니다 실시간 스트리밍은 BigQuery에서 기본입니다 수십만 건의 이벤트를 스트리밍 할 수 있습니다 직접 BigQuery에 삽입 한 다음 실제로 분석합니다 동시에

그래서 그것은 매우 비판적입니다 오늘 아침에 들었던 발표 중 하나 Rajen이 BigQuery ML에 대해 이야기했습니다 이것의 핵심은 – 우리가 듣기 시작한 두 가지 큰 도전 우리 고객이 사용하기에 좋았습니다 BigQuery – 엄청난 양의 데이터가 모든 데이터를 가져옵니다 그러나 어떤 기계 학습도하고 싶다면, 그 데이터를 이동해야합니다

그리고 몇 가지 숫자를 본다면, 데이터 과학자들이 80 %의 데이터 작성과 같은 시간을 보내고, 데이터를 이동하고 모델 테스트 등 모든 작업을 수행합니다 그래서 우리 일은, 당신은 어떻게 그 시간을 단축합니까? 기계 학습을 가능하게함으로써 데이터웨어 하우스 및 자료에서 데이터를 기계 학습으로 이동 엔진? 왜 기계 학습 엔진을 데이터에 더 가깝게 옮길 수 없습니까? 그래서 그것이 그 전제입니다 두 번째로 스킬 세트 갭이었다 업계에서는 PSG 데이터가 그다지 많지 않습니다 과학자들은 고급 기계 학습을해야합니다

그래서 우리 일은, 우리가 활용할 수 있을까요? 잠재 고객이 이미 가지고있는 스킬 (SQL) 그런 다음 기계 학습을 SQL에서 사용할 수있게 만드시겠습니까? 이것이 바로 우리가 시도한 것입니다 BigQuery ML은 SQL 기반 기계 학습에 불과합니다 BigQuery에서 모델 생성 BigQuery를 사용하는 경우 이미 SQL을 사용하여 데이터를 분석합니다 쿼리 준비가되었습니다

귀하는 귀하의 데이터를 이해합니다 그 위에 두 줄의 코드를 작성하십시오 원하는 모델 유형을 모델로 만듭니다 원하는 경우 모델을 자동 감지 할 수 있습니다 그런 다음 입력 내용과 예측하려는 내용을 입력하십시오

그리고 예측을 위해서, 당신은 단지 MLPredict를 선택하고, 예측을 내릴 수 있습니다 그래서 그것은 기계를 만드는 것이 얼마나 쉬운가하는 것입니다 BigQuery에서 학습하십시오 그 중 하나는, 오늘 일찍 보았다면, 그들이 이야기 한 20 세기 폭스였습니다

잠재 고객이 더 많은 것을 예측할 수 있었던 방법에 대해 영화로 돌아와 새로운 영화로 돌아올 가능성이있다 그들이 발사하고 있다고 Geotab에서 지금 다른 예를 들어보고 싶습니다 그럼 내가 왜 초대하지 않니? 닐, 제발 무대에 올 수 있니? Geotab이하는 일을 이해하도록 도와주십시오 왔다

[박수 갈채] 고마워, 닐 NEIL CAWSE : 여기 있습니다 자 이제 너 자신에 대한 간단한 소개를 할 수 있겠 니? Geotab에 대해 좀 더 알려주십시오 NEIL CAWSE : 물론입니다 Geotab은 차량 텔레매틱스 분야의 글로벌 리더입니다

많은 사람들이 차량 텔레매틱스를 묻습니다 우리는 차량에서 데이터를 수집하는 작은 장치를 가지고 있습니다 우리는 120 만대의 차량을 보유하고 있습니다 우리는 모든 데이터를 수집 한 다음 거대한 규모로 그것을 분석하라 그래서 우리는 차량이 어디에 있는지에 대한 정보를 수집합니다

얼마나 빨리 움직이는 지, 엔진이 어떻게 작동하는지, 연료 소비 정보 당신이 브레이크를 밟았는지 여부와 상관없이, 깊은 구멍을 뚫고 지나간다 그래서 기회를 상상할 수 있습니다 우리가 그 데이터를 분석해야한다는 것, 제품을 사용하여 고객에게 결과 전달 BigQuery와 기계 학습은 엄청나게 큽니다 그리고 그것이 실제로 우리가하는 일입니다 SUDHIR HASBE : 멋지네

현재 존재하는 것에 대해 더 많이 나눌 수 있습니까? 하부 구조? BigQuery ML에 들어가기 전에 어떤 기술이 필요합니까? Google Cloud에서 사용하십니까? 사업은 어떻게합니까? 그리고 BigQuery ML로 전환 한 다음 논의 할 수 있습니다 NEIL CAWSE : 물론입니다 우리는 Google과의 관계를 생각합니다 우리의 경쟁 우위 우리는 데이터를 처리하는 GC에 500 개 이상의 서버가 있습니다

조직에서 생성하는 모든 데이터 조각 실제로 Google BigQuery로 푸시됩니다 Google은 Google ML 및 TensorFlow를 대규모로 사용합니다 우리는 Dataproc을 사용합니다 우리는 Kubernetes와 같은 제품을 사용합니다 그리고 구글이 발표하는 모든 것, 우리는 매우 예리하게 보았습니다

왜냐하면 실제로, 이점은 – 그리고 그것은 과소 평가 된 문제입니다 – 먼저 데이터를 수집하기 시작할 때, 당신은 한 곳에서 그것을 가지고 있습니다 다음 포인트는 ML을 활용하고 싶다면, 당신은 그 ML을 데이터가있는 곳에 가까이 있어야합니다 그렇지 않으면, 당신은 당신의 인생을 단지 데이터를 움직이는데 소비합니다 그렇게 훌륭한 관계가되었습니다 훌륭한 파트너십

하디 하세 : 그리고 네가 알기 론 우리가 알파를 발표 한 이후 BigQuery ML에 참여했습니다 그래서 데모가 있다는 것도 압니다 그럼 니가 뭘하는지 말해주지 그래 데모에 표시하고 우리는 어떤 고객층을 목표로 삼고 그 다음 데모를 보여줄 수 있습니까? NEIL CAWSE : 물론, 그렇게하겠습니다 종류의 수준에 다만, 우리는, 아마, 가장 포괄적이고 가장 큰 차량의 큰 데이터 세트 세상에

이전에 언급했듯이이 데이터 세트는 매우 풍부합니다 주변 공기 온도, 공기 압력을 알고 있습니다 위험한 교차로인지 알 수 있습니다 우리는 엄청난 양의 데이터를 알고 있습니다 그래서 내가 갈 물건 중 하나 여기에 오늘 우리가 가진 모습을 보여주세요

표준 제품에 추가 기능, 피드 관리 제품이지만이 제품은 똑똑한 도시 주변 그리고 우리가 할 일은 우리가 안전을위한 결과를 예측하기 위해 ML을 사용할 것입니다 날씨에 따라 그래서 나는 그것에 도달 할 것이고, 나는 그 모든 것이 어떻게 잘 맞는지 보여줄 것이다 어떻게 작동하는지

잘됐다, 닐 그리고 당신이 그것에 관해 준비하고있는 동안, 중요한 건 우리가 할 일이 또있다 GIS 알파입니다 따라서 BigQuery는 기본적으로 지원합니다 GIS 데이터 유형과 같은 GIS 기능은, 데이터웨어 하우스 내에서 우리는 조금 더 나중에 그것에 대해서 이야기 할 것입니다

3:15에 세부 세션이 있습니다 우리가 얘기하려고하는 것이지만 나는 그것을 닐에게 넘겨 줄 것이다 데모에 대해 더 많이 말하기 NEIL CAWSE : OK, super 그래서 우리는 데모를 얻을 것입니다

좋아, 우린 끝이야 따라서 여기에서 볼 수있는 것은 제품 내부의 모습입니다 앞서 언급했듯이 이것은 추가 기능입니다 이것은 수백 가지 애드 인 중 하나입니다 제품에서 사용할 수 있습니다

이것은 우리가 레버리지를 도입하는 곳 중 하나입니다 Google ML 및 Google GIS – 여기에 발표 된 BigQuery의 GIS 기능 우리가 방금 말했던 정말 재미있는 데이터를 얻기 위해서입니다 그리고 이것은 단지 긁기 시작했습니다 우리가 이걸 가지고 갈 수있는 곳의 표면, 너는 이해할 수있다 왼쪽 편에서 보시는 것은 무엇입니까? 시카고의 위험한 교차로를 볼 수 있습니다

그래서 지난 두 주 동안 본질적으로 핫스팟은 더 위험한 곳 이제 우리가 어떻게 말할 수 있을까요? 1 년에 약 10 만 건의 사고가 있습니다 우리의 수영장에서 일어나고 있습니다 우리는 사람들이 브레이크를 밟고있는 곳을 알고 있습니다

그래서 우리는 그 데이터를 집계합니다 그러면 우리는 이러한 사고를 가진 사람들이 어디에 있는지 볼 수 있습니다 그리고 사람들은 브레이크가 걸리거나 위험한 차선을 밟고 있습니다 변화, 그리고 swerving, 그리고 이것 저것? 그래서 빅 데이터 팀 (Big Data team)이 있습니다 오늘 여기 앉아서 그들이 한 일은 그들이 데이터를 가져 갔다는 것입니다

그런 다음 그들은 말했습니다 공개 데이터 세트를 사용하여 날씨 데이터를 중심으로 Google BigQuery에서 사용할 수있었습니다 그래서 우리는 특정 날짜와 시간을 알고 있습니다 특정 위치의 경우, 무엇입니까? 그 위치의 날씨 그리고 그들은 250 개의 다른 통계를 사용했습니다

분석하고 계산할 수있는 방법에 대해 날씨가 안전에 영향을 줍니까? 그래서 그들은이 실험을했고, 나는 당신에게 그 결과를 보여줄 것입니다 그러니 온도를 내려서 얼어서 눈을 냅시다 이제 예측 분석을 실행 해 보겠습니다 그리고 우리가 보는 것은 실제로 정말로 흥미 롭습니다 위험한 일부 지역 전에는 여전히 위험하지만, 패턴의 큰 변화가있었습니다

그래서 우리는 사물이 현저하게 달라 보이는 것을보고 있습니다 그리고 우리가 지금 영역으로 확대하면, 이제 우리는 보게 될거야, 음, 어디 있니? 그 위험한 교차로? 여기에 하나의 작은 영역을 가져 가자 어디에서 확대 할 것인가? 그리고 우리는 그것이 눈이 많이 내리는 곳이라면, 우리는 학교 근처에 위험한 지역이있는 것 같습니다 그래서 여기서 일어나는 일을 고려할 수 있습니다 어쩌면 부모님이 길 건너에서 기다리고 계신지도 모르겠습니다

애들을 데리러 눈이오고있어 아이들도 길을 가로 질러 달리고있다 그래서 상황을 알 수 있습니다 아니면 자동차가 고장 났을 수도 있습니다 그러나 요점은 ML을 활용함으로써이 데이터를 활용함으로써, 도시는 이제 인프라가 무엇인지 볼 수 있습니다

도로가 순서대로 설정되는 방식을 바꿉니다 모두를 더 안전하게 지키기 위해서 그리고 이것은 실제로 단지 무엇이 표면을 긁어 내기 시작합니다 그런 레버리지를 활용하면 할 수 있습니다 Google BigQuery 및 Google ML과 같은 강력한 도구입니다

고마워, 닐 이것은 굉장합니다 고마워 네일 켈스 : 감사합니다 하스 하 수녀 : 핵심은 도시를 더 똑똑하게 만들고 그러한 영향을 끼칩니다

실제로 모델 생성 및 예측을 수행 할 수 있습니다 너무 빨리, 전체 솔루션을 신속하게 처리 할 것입니다 창조 NEIL CAWSE : 물론입니다 핵심 사항 중 하나는 우리 팀이 얼마나 빨리 이 일을 함께 할 수있었습니다

코딩이 필요 없습니다 Kubernetes가 없습니다 엄청난 양의 서버가 회전하지 않습니다 SUDHIR HASBE : Kubernetes도 좋아하지만 SQL 사람들이 있습니다 우리는 SQL을 좋아합니다

네 고맙습니다 고마워, 닐 고마워 [박수 갈채] 실제로 3시 15 분에 세션이 있습니다

Geotab 솔루션 인 GIS 기능에 대해 자세히 알아보십시오 GIS 데이터 유형과 모두에 관심이 있다면, 오늘은 나중에 좋은 세션이 될 것입니다 그 외에도 우리는 파트너와 협력했습니다 계속 나아가고 통합 된 BigQuery ML 기능에 대한 경험 예를 들어, Looker는 이러한 종단 간 워크 플로우를 가지고 있습니다 당신이 실제로 할 수있는 데이터 세트를 가져 와서 Looker보기에서보고, 그 안에 모델을 실제로 만들고, 예측을 시각화하고, 실제로 모델을 미세 조정하십시오

Looker UI 자체에서 가져온 것입니다 그래서 우리는 더 많은 파트너와 협력 할 것입니다 이러한 종류의 통합 기능을 제공하려면, 따라서이 도구를 사용하는 애널리스트 도구 내에서 실제로 이 도구에서 BigQuery ML을 활용하십시오 이 모델을 만드는 것이 정말 쉽습니다 모델 시각화, 그리고 모두

그래, 앞으로 이것을 고대하고 앞으로 나아갈 것이다 BigQuery ML의 몇 가지 사항 – 선형 및 로지스틱 회귀 모델이 있습니다 이미 사용할 수 있습니다 베타 버전을 사용할 수 있으므로 시도해보십시오 베타 모드에서 피드백을 좀 더주세요

다른 몇 가지 우리는 또한 클러스터링 베타가 올 것이라고 발표하고 있습니다 다시, 나는 세부 사항에 갈 수 없을 것이다 클러스터링, 주요 기능 이런 식으로 생각하면됩니다

BigQuery에서 페타 바이트 규모의 쿼리를 수행 할 수 있습니다 2 년 전과 같이 할 수 있습니다 이제 할 수 있습니다 그러나 파티셔닝 및 클러스터링을 사용하면, 당신은 비용을 크게 줄일 수 있습니다 쿼리가보다 효율적으로 진행될 것이기 때문입니다

우리는 데이터에만 액세스하며 클러스터 내에서 필요한 것은 무엇입니까? 또는 그 파티션 내에서 따라서 파티셔닝 및 클러스터링은 쿼리를보다 효율적으로 만들 수 있도록 도와줍니다 실제로 비용을 크게 줄입니다 온 디맨드 가격 모델을 사용하는 경우 요르단 티 가니 (Yordan Tigani)가 3시 15 분에 자세한 세션을했습니다 너라면 절대 가야 해

오늘이 주제에 관심이 있습니다 요르단이 그 세션에서하는 놀라운 데모가 있습니다 다시 말하지만, 우리가 바로 손을 댈 때, GIS 알파는 현재 사용할 수 있습니다 우리가 고객으로부터 듣고 있었던 시나리오 예를 들어, 우리는 모스 콘 센터에 있습니다 반경 2 마일 내에서 얼마나 많은 이 지역에서 택시를 이용할 수 있습니까? 당신이 그런 종류의 쿼리를 원한다면, 역사적으로, 그것은 정말로 어렵습니다

그리고 GIS 기능의 가용성으로 인해, 당신은 지금 쿼리 내에서 직접 그런 종류의 쿼리를 할 수 있습니다 우리는 몇 가지 새로운 커넥터를 사용할 예정입니다 우리가 시작하는 다른 중요한 것들 중 하나 새로운 BigQuery UI가 제공됩니다 능력은 더 좋아 보인다 한 번의 클릭으로 여러 번 경험할 수 있습니다

Data Studio로 이동하여 시각화 작업을 수행 할 수 있습니다 그런 다음 신속하게 살펴 보겠습니다 Google 스프레드 시트 통합에서 사용할 수 있습니다 그래서 이것은 하나의 예입니다 핵심 데이터 유형의 GIS 기능과 함께 쿼리 할 수있는 능력, 우리는 또한 우리가 시작하는 시각 도구를 가지고 있고, 계속해서 시각적으로 쿼리를 실행할 수 있습니다

지도상의 포인트를 살펴보십시오 왜냐하면 당신이 쿼리를하고 있다면, 반경 2 마일에있는 모든 지점을 보여줘 다른 점에 대해 어떻게 시각화 할 예정입니까? 정말 어렵습니다 그래서 우리는 Earth Engine과 함께 작업했습니다 Google의 팀과 시각 도구 그러면 해당 데이터를 시각화 할 수 있습니다

그러니 한번보세요 다시 말하지만 Sheets를 사용하면 많은 고객 분석을 위해 스프레드 시트를 사용하고 데이터를 시트로 이동합니다 이제 Google 스프레드 시트를 사용하면 BigQuery 용 커넥터를 사용할 수 있습니다 거기에서, 당신은 클릭 할 수 있습니다, BigQuery 인스턴스에 연결, 데이터를 가져 와서 분석을 시작하십시오 그것을 즉시 사용할 수 있습니다

그래서 다른 주요 기능 중 하나는 – 분석하기 쉽고 연결하기 쉽습니다 데이터 세트, 그리고 모두에 이것이 올해 큰 테마 중 하나입니다 BigQuery입니다 어떻게 만드나요? BigQuery에서 데이터를 쉽게 분석하고 분석 할 수 있습니까? 스트리밍 분석 – 이전에 살펴 보았습니다

우리는 전체 제품 포트폴리오를 보유하고 있습니다 수백만 가지 사건을 처리 할 수있는 것처럼 Pub / Sub를 사용하여 수집 할 수 있습니다 Dataflow를 사용하면 대규모 데이터 처리를 수행 할 수 있습니다 Cloud ML 또는 BigQuery를 사용하여 분석을 진행할 수 있습니다 그 데이터 위에

Brightcove가 가장 좋은 예 중 하나입니다 그들은 말 그대로 한 달에 8,500 년의 비디오를 수집합니다 하루에 70 억 건의 이벤트가 수집됩니다 그리고 그들은 Dataflow plus Pub / Sub를 사용합니다 이러한 동영상을 분석하고 활용할 수 있습니다

그것으로부터의 훌륭한 통찰력 그러나 Brightcove만이 아닙니다 Traveloka는 전자 상거래, 클릭 스트림 용으로 사용합니다 수집 및 분석하는 것입니다 큐빗 (Qubit)은 소매점에서 POS 분석을 수행합니다

게임 내 분석에서 Nintendo의 놀라운 시나리오, 게임 내에서의 소모품 사용 그리고 IoT 데이터를 위해 Nest를 선택합니다 따라서 어떤 종류의 대규모 이벤트 수집 처리 분석, 당신은 Pub / Sub, Dataflow를 사용할 수 있습니다 우리는 사실 그 공간에서 약간의 향상을 발표하고 있습니다 우리가하고있는 큰 일 중 하나는 파이썬입니다

파이썬은 GitHub에서 가장 빠르게 성장하는 언어 중 하나입니다 만약 당신이 모든 코멘트와 모든 것을 보았다면 우리는 Python 개발자들이 쉽게 사용할 수 있도록하고 싶었습니다 스트리밍을 할 수 있습니다 이제는 파이썬 스트리밍 기능을 활성화 할 것입니다

Beam을 사용하면 고객이 실제로 확장 가능한 데이터를 구축 할 수 있습니다 파이썬을 사용하는 파이프 라인 이제는 베타 버전이됩니다 따라서 고객은이를 사용할 수 있습니다 또한 데이터 흐름 스트리밍 및 셔플 기능도 제공됩니다

대규모 데이터 처리를 쉽게 도와줍니다 자동 크기 조정 기능이 함께 제공됩니다 이들에 대한 자세한 다이빙 세션이 있습니다 관심이 있는지 확인해야합니다 우리가 한 다른 일들 중 하나 우리는 실제로 실적을 향상시키고 우리 도서관은 Pub / Sub에 훨씬 더 효율적입니다

당신이 사용할 수있는 7 가지 언어로 하지만 그 외에도 많은 것을 가지고 있습니다 카프카를 사랑하는 고객 그들은 마치 카프카를 이미 사용하고 있습니다 GCP에서 계속 사용하고 싶습니다 내 옵션은 무엇입니까? 그래서 역사적으로, 당신은 그냥 가서 직접 배포 할 수 있습니다

그것을 관리하십시오 하지만 지금 우리가 가진 것은 Confluent와 함께, 우리는 관리되는 Kafka 솔루션을 사용할 수 있습니다 따라서 계속 진행하고 관리되는 서비스를 GCP에서 사용할 수 있습니다 그리고 그것은 우리의 전략 중 하나입니다 파트너와 협력하여 이러한 엔드 – 투 – 엔드 솔루션은 고객으로 활용할 수 있습니다

따라서 이미 사용할 수 있습니다 우리 전략의 핵심 인 다른 것들 중 하나 핵심 신념뿐만 아니라이 오픈 소스입니다 그리고 열린 구름 그리고 우리는 근본적으로 Istio 우리가 투자하고있는 Kubernetes에게 빅 데이터 세상에서 우리 편이라면, 우리는 오픈 소스 기술에 많은 투자를하고 있습니다

큰 데이터 로드맵처럼 보이는 경우, 지난 15 년 동안, 혁신의 양 구글이 주도 해왔다 Google Cloud 이전에는 종이로 사용할 수있었습니다 우리 업계가 모든 연구에서 배울 수 있도록 완료했다, Dremel 종이에서 모두, 모든 다른 논문과 마찬가지로 MapReduce를 GFS로 그리고 우리는 또한 이러한 제품을 많이 만들고 있습니다 이러한 기술을 기반으로합니다 우리가 투자 한 두 가지 핵심 제품 영역이 있습니다

오픈 소스 측 하나는 Dataproc입니다 Hadoop 및 Spark 기능을 관리하며, 작곡가뿐만 아니라 작곡가는 매혹적입니다 개인 알파 상태에서 1,000 명 이상의 고객이있었습니다

그것을 사용합니다 나는 당신이 그것을 어떻게 비공개로 유지하는지 모르겠다 그리고 나서 그들은 그것을 사용하는 많은 고객을 가지고 있습니다 그래서 방금 출발했습니다 Airflow, Apache Airflow, 그리고 그것은 단지 기본적으로 모든 고객이 그것을 사랑했습니다

그리고 우리는 그것을 엄청나게 채택하기 시작했습니다 그래서 우리는 지금 Composer를위한 GA를 발표하고 있습니다 이미 사용 가능합니다 당신은 그것을 사용할 수 있어야합니다 Dataproc 측면의 주요 개선 사항 – 자동 크기 조정 및 사용자 정의 패키지

맞춤 패키지를 사용하면 몇 번의 클릭만으로, 우리의 최상위 아파치 프로젝트를 고른다 이제 Dataproc에 배포하고 싶습니다 그 흥미 롭군요 리소스 요구 사항을 기반으로하는 자동 크기 조정 Hadoop 클러스터를 자동으로 확장합니다 Spark 클러스터를 사용할 수 있습니다

그리고 나서, 우리는 몇 주 전에 발표했습니다 그 [? Toddenworks?]가 이제 인프라를 지원합니다 및 GCP 기본적으로 따라서 GCP에서 직접 HDP 또는 HDF를 사용할 수 있습니다 그걸로, 블루에 프론에서 마이클을 불러주세요

그들이 GCP를 사용하는 방법에 대해 이야기합니다 [박수 갈채] 남자 이름 환영 안녕하세요, Sudhir 잘 지내? 잘 했어

MICHAEL COLLIS : 여기 있습니다 당신 자신의 빠른 소개를 할 수 있을까요? 회사뿐만 아니라 당신의 역할? MICHAEL COLLIS : 물론입니다 전혀 안녕 모두들 나는 네가 다음과 같은 두 번째 날을 즐기기를 희망한다

그래서 블루 에이프런은 6 년 전에 설립되었습니다 겸손한 목표로 그리고 그 목표는 식품 시스템이 어떻게 이 나라에서 일했다 그리고 우리가 좋은 진전을 이룩한 동안, 그것은 비전이 있어야하는 것처럼 대담한 목표입니다 우리는이 비전에 도달 할 수 있다고 생각했습니다 가정 요리를보다 쉽게 ​​접근 할 수있게 만들어줌으로써, 이 나라에서 더 많은 사람들에게 더 저렴한 가격

그리고 그렇게함으로써, 우리는 그곳으로 갈 수있었습니다 농부, 생산자와 협력하고 확실하게하십시오 우리가 지속 가능한 농업에 투자하고 있다는 사실, 가축을 키우는 인간적 방법,이 모든 다른 것들 기본적으로 우리가하는 일은 우리가 보내는 것입니다 비싼 재료, 제철 재료를 상자에 담아 그것들을 만들기위한 조리법으로 그리고 우리는 미국에서 수백만 개의 식탁을 운영하고 있습니다

매일 밤, 특권입니다 SUDHIR HASBE : 저는 그들 중 하나입니다 그래서 Blue Apron을 좋아합니다 MICHAEL COLLIS : 알겠습니다 SUDHIR HASBE : 그렇다면 Blue Apron에서 데이터 분석은 어떻게 사용됩니까? MICHAEL COLLIS : 가장 큰 특권 중 하나입니다

나는 음식에서 일하는 것에 대해 배운다 고 생각합니다 사람들은 항상 그들이 생각하는 것을 말해주고 싶습니다 우리는 실제로 나가서 많은 고객을 요구할 필요가 없습니다 피드백 [웃음] 아니

내가 말했듯이, 당신은 사람들의 만찬 테이블에 있습니다 매우 개인적인 순간입니다 맞습니까? 그리고 그것은 매우 친밀합니다 기본적으로 우리는 경청 할 책임이 있습니다 그리고 제가 말했듯이, 사람들은 우리에게 보여줄 것입니다, 그들은 조리법에서 그들이 원하는 것을 우리에게 말할 것입니다

그 전에 모든 요리법에는 농담이있었습니다 여름에는 그들에게 양배추가된다 저를 고치라고하지 마십시오 나는 그것을 고칠 수 없다 따라서 데이터는 데이터의 핵심 부분입니다

우리는 사업 적 결정을합니다 그리고 그것은 즉시 명백하지 않습니다 너가 우리가하는 것을 보면 당신은 생각합니다, 아, 당신은 음식 상자를 나른다 승인

그래서 훌륭합니다 그러나 실제로, 우리는 고객 라이프 사이클을보고 있습니다 모든 단계에서 데이터를 수집하고 있습니다 당신이 좋아하는 것, 당신에게 어필하는 요리법, 무슨 사진이 당신에게 호소, 어떤 제목이 당신에게 호소 그리고 우리는 당신이 좋아하는 프로필을 만들고 있습니다

그리고 제가 말했듯이 사람들은 우리에게 그들이 느끼는 것을 말해줍니다 우리 조리법 중 하나에 대한 의견을 적어 본 사람이라면, 인간이 그것을 읽었다는 것을 알아라 멋지네요 마이클 콜리스 :하지만 우린 더 잘할 수 있지, 그렇지? 우리가 생각할 수있는 것은 우리가 여기서하고있는 선순환 데이터 비전 우리가 그렇게하는 것에 대해 생각하는 방식은 – 우리가 무언가의 예를 사용한다면 우리 팀은 분명히 요리법 권장 사항입니다

상자에 올바른 요리법을 넣었는지 확인하십시오 분명히 좋아할 것입니다 따라서 우리가 더 나은 권고를한다면, 우리는 더 나은 예측을합니다 우리는 더 나은 구매를했습니다 우리는 나가서 올바른 재료를 소싱하고 있습니다

그리고 올바른 단백질과 올바른 건조 제품 우리의 필요를 충족 시키십시오 그것은 음식물 쓰레기를 줄이는 것입니다 이 단계에서 또 다른 중매인을 잘라내는 거지? 슈퍼마켓 그리고 우리가 더 나아질 경우 우리는 결국 수천, 수천 톤의 낭비되는 음식을 절약 할 수 있습니까? 그래서 모든 작은 변화가 우리에게 그토록 중요합니다 규모면에서 큰 차이가 있습니다

하세 하데 : 철학에 대해 더 많이 말해주세요 오픈 소스 소프트웨어와 당신은 그것을 사용하고 조직 내에서 그런 것들을 사용하십시오 마이클 콜리스 : 네 그래서 우리는 세탁물을 사용하는 것으로 기록에 남습니다 GCP 서비스 목록 – 아이오와 엔터프라이즈 데이터웨어 하우스는 BigQuery입니다

스트리밍 처리에는 Dataflow가 사용됩니다 우리는 배치 기계 학습을 위해 Dataproc을 사용합니다 데이터 호수에는 GCS를 사용하고 준비된 기능에는 GCS, 우리의 숙련 된 모델,이 모든 것들 하지만 그 많은 오케스트레이션은 Airflow를 사용합니다 우리는 더 많거나 적은 공기 흐름을 사용해 왔습니다

Blue Apron에 데이터 엔지니어링이 존재했던 날 그리고 그것은 우리에게 대단히 중요합니다 정보를 섭취하는 데 도움이되기 때문에 외부 출처에서 이는 일} 처리 ETL 프로세스를 실행하는 데 도움이됩니다 우리가 배치 기계 학습을 실행하는 데 도움이됩니다

모델, 그 모든 것들 그리고 실제로 우리가 어떻게 끝내는 지 핵심 요소입니다 우리의 일괄 처리 기계 예측을 실제로 제공합니다 게다가 Airflow를 사용하여 1 억 2 천 2 백만 건의 추천을 계산합니다

매일 그리고 그것들을 작은 레벨의 DB 아티팩트로로드합니다 우리가 우리의 봉사에서 기억으로 봉사하는 것은 위대한 일입니다 우리가 봉사 할 수 있다는 것을 의미하기 때문에 매일 약 15 마이크로 초 권장 숨어 있음

꽤 괜찮아 와우 와우 마이클 콜리스 : 우리는 그걸로 일할 수 있습니다 멋지네요

마이클 콜리스 : 네 그러나 오픈 소스는 그 중대한 부분입니다 맞습니까? 우리는 일찌감치 화상을 입었습니다 나는이 이야기가 모든 사람들에게 친숙해야한다고 생각한다 아마 스타트 업으로 일했을거야

우리는 일찍이 특정 구름에 묶여있는 벤더에 의해 화상을 입었습니다 그리고 우리는 처음부터 오픈 소스에 전념했습니다 그러나 그것은 정말로 우리를 실현 시켰습니다, 오, 우리 오픈 소스를 심각하게 받아 들여야한다 엔지니어링 조직으로서 그 위치에 오르지 않는다 다시

우리는 큰 엔지니어링 조직이 아닙니다 데이터 엔지니어링은 우리에게 단지 15 명입니다 우리는 경쟁 우위를 확보하기 위해 노력해야합니다 그리고 그것은 공기 흐름을 실행하지 않습니다 당사의 데이터 운영 팀은 가장 최근의 기류를 관리했습니다

19 업데이트 네 음, 그 주 잘 지내지 않습니다 그래서 우리는 갇히고 싶지 않습니다

그리고 우리는 그것을 한 번 쓰고 어디서나 실행하고 싶습니다 우리의 하이브리드 클라우드 그리고 구글이 말하면, 우리는 오픈 클라우드에 대한 약속은 우리에게 매우 중요합니다 그리고 그것은 매우 중요합니다 다른 차원에서 우리 사업을 위해 경쟁 할 수 있습니다

그러나 당신이 우리 제품에 갇혀있는 것은 아닙니다 그 점이 중요합니다 그것은 우리에게 좋은 신호입니다 Beam, Spark, TensorFlow – 이것들은 모두 우리가 에 큰 투자를했다 오픈 소스라면 우리가 원하는 곳 어디든지 이동할 수 있습니다

우린 아니야 SUDHIR HASBE : 결코 움직이지 않기를 바랍니다하지만 얻습니다 원하는 경우 언제든지 이동시킬 수 있습니다 MICHAEL COLLIS : 그럴 수 있습니다

[웃음] 완벽 해 감사 고마워, 마이클 본 다른 주요 측정 항목 또는 원하는 비즈니스 결과 우리가 마무리하기 전에 공유 할까? 마이클 콜리스 : 수입의 주간에 나 한테 물어볼 수는 없어 해제

하지만 아니, 기본적으로, 우리는 우리 제품과 관련하여 엄청난 양의 진품을 보았습니다 고객에게 피드백을 제공 할 수있는 더 많은 방법을 제공 할 때, 우리는 더 많은 피드백을 얻습니다 그래서 그것은 정말로 선순환입니다 우리는 또한 그러한 통찰력을 사용하고 있습니다 기본적으로 요리 팀과 놀라운 요리사를 돕기 위해 요리법을 더 잘 계획하십시오

그래서 그것은 우리를위한 새롭고 흥미 진진한 프론티어입니다 AI를 사용하여 실제로 우리가 제공 한 것에서 피드백을 제공합니다 우리 고객이 좋아할 것임을 알기 때문에 메뉴에 더 많은 것이 있습니다 그 것들 — 알다시피, 모든 사람과 사물을위한 무언가가 있습니다 사람들은 훨씬 더 많이 사랑할 것입니다

SUDHIR HASBE : 멋지네 고맙습니다 고마워요, 마이클 마이클 콜리스 : 네 감사 고마워요

[박수 갈채] 당신이 본 것처럼, 내가 고객들과 이야기 할 때, 이 모든 것이 열려있는 구름 위에 있습니다 실제로 많이 공감합니다 특히 전문성 고객을 유지 Spark, Hadoop, Beam과 함께 우리가해온 것, 및 기타 영역 네 번째 주제, 빨리 이야기하고 싶습니다 시각화하고 데이터를 활성화하는 것이 었습니다

핵심은 셀프 서비스 BI입니다 다양한 조직의 우선 순위 중 하나 자신의 데이터를 어떻게 탐색 할 수 있습니까? 사용자가 데이터를 탐색하고 탐색 할 수 있도록 협업적인 데이터 중심의 의사 결정, 모든 대화에 등장하는 주제입니다 나는 고객과있다 따라서 Data Studio를 사용하지 않았다면, 사용 가능한 BI 툴입니다

협력 기본적으로 협업을 기반으로합니다 핵심은 새로운 BigQuery UI 기능입니다 내가 발표 한 바에 따르면, 새로운 UI를 사용한다면, 말 그대로 한 번의 클릭으로 쿼리를 수행 할 수 있습니다 한 번 클릭하고 시각화 및 데이터를 직접 수행하십시오

탐구 그래서 당신은 그것이 어떤 데이터 세트인지 찾아 볼 수 있습니다 해당 데이터를 다른 소스와 혼합 할 수 있으며, 애드워즈 등을 사용하여 해당 데이터를 가져옵니다 그리고 실제로 진행하여 보고서를 만들 수 있습니다 초 이내

글자 그대로 말하자면 전문가가 필요하지 않습니다 또한 사전 제작 된 템플릿도 있습니다 현재 사용할 수 있습니다 그래서 당신은 문자 그대로 들어갈 수 있습니다 클라우드 결제에서 찾은 템플릿이 있습니다

따라서 결제를 시각화하려는 경우 클라우드 또는 Google 클라우드에서 실제로 그것을위한 템플릿이 있습니다 애드워즈 실적을 분석하거나, 당신은 그것을위한 템플릿을 가지고 있습니다 정말 좋은 기능입니다 데이터 시각화 개발자의 미리보기도 있습니다 사용할 수 있습니다

그러나 D3 기반 시각화를 수행 할 수 있습니다 맞춤 시각화를 만듭니다 우리가 투자 한 다른 분야 우리 파트너 중 한 명인 Trifecta, 데이터 준비 솔루션입니다 그래서 많은 고객들이하고 싶어합니다 분석가들은 시각적으로 그렇게하기를 원한다

데이터 준비를 사용하면 실제로 진행하고 시각화 할 수 있습니다 BigQuery에있을 수있는 귀하의 데이터는 데이터에 어떤 예외가 있는지 파악하고, 데이터를 정리하고 다시 저장하십시오 Google 애널리틱스에서 준비 중이므로 그 도구로 다음 몇 달 동안, 핵심은 우리가 많이 집중했다는 것입니다 베타에서 피드백을 얻는 데, 우리는 몇 가지 핵심 기능을 사용할 수 있습니다 우리가 한 강화의 한 큰 영역 모든 팀 기반의 데이터 쟁탈입니다

조리법을 공유하고 흐름을 공유하고 복사하려면 어떻게합니까? 어떻게 사용자 정의 샘플 조리법을 재사용하고 재사용합니까? 그런 것들? 그래서 그것에 중점을 둡니다 생산성과 같은 방법에 집중하십시오 빠른 바로 가기가 있습니다 인기있는 항목과 모두에? 그리고 우리는 완전히 새로운 포괄적 인 디자인을 가지고 있습니다 훨씬 더 좋아 보이고 더 효율적인 방법입니다

그래서 그것은 그 중 하나입니다 나는 다음 것에 뛰어든다 그래서 다른 것들 중 하나이다 누군가가 나에게 잠시 말했고, 좋았다는 것만으로는 충분하지 않다 당신도 잘해야합니다

그래서 우리는 비영리 단체와 협력 해 왔습니다 분석을 민주화하는 데 도움을 줄 수있는 방법을 알아 봅니다 및 기계 학습 기능 비영리 단체에서 그럼 정밀 의학이 어떤지에 대한 비디오를 실행 해 봅시다 그것을 사용하고, 나는 그것에 대해 더 이야기 할 것입니다 우리가 가져갈 수 있을까요? [비디오 재생] [음악 재생] 내 이름은 Robert Tabz 야

5 년 반 전에, 제 어머니는 알츠하이머 병 나는 모든 의약품이 작동하는 것은 아니라는 것을 알고있었습니다 전체 시간은 하향 나선형이었다 – 나는 약 25 년 전에 할아버지를 잃었다 질병에

당시 우리 가족은 이미 그랬던 것처럼 느꼈습니다 질병의 궤적을 바꾸기에는 너무 늦었다 그리고 오늘 같은 이야기를 들으면 내 마음이 아프다 정밀 의학 재단의 사명 인공 지능과 건강 관리를 하나로 모으는 것입니다 알츠하이머 병을 일찍 발견 할 수 있습니다

– 알츠하이머를 아주 일찍 발견 할 수 있다면, 그 질병이 치료에 가장 취약한시기입니다 – 우리가 접근 할 수있는 데이터 익명화 된 전자 건강 기록입니다 우리는 HIPAA 준수 환경이 필요했습니다 Google Cloud를 사용한 이유입니다 – 우리는 수백 가지 변수를 다루고 있습니다

수백만 명의 환자에게 수십억 줄의 데이터 – Google Cloud를 사용하면 Google의 운영 규모를 확장 할 수 있습니다 BigQuery ML을 사용하면 기계 학습을 개발할 수 있습니다 모델을보다 빠르게 만들고 전체 데이터를 활용하십시오 비영리 단체이기 때문에 미국 전역의 자원 봉사자에게 의존하고 있습니다

Google Cloud 덕분에 정말 그렇게 할 수있었습니다 우리는 그들이 기계 학습을 적용 할 수 있기를 원했습니다 데이터 및 트렌드 자체를보고, 보다 혁신적인 접근 방식을 제안 할 수있는 권한 부여 질병의 진행을 바꾸는 것 -이 작품은 나에게 너무 중요하다 우리가이 파괴적인 질병에 대처하는 데 도움이되기 때문에 치료법이 없습니다

– 나는 그들이 어딘가에서 들었다고 들었다 음모에 점들이 사람들이라는 것을 잊지 마십시오 그리고 우리는 그것을 진지하게 생각합니다 [음악 재생] [끝내기] SUDHIR HASBE : 정밀 의학의 훌륭한 사례 BigQuery에서 데이터 분석 기능 사용 ML은 다른 BigQuery 기능과 함께, 그들의 지역에서 전진하고 나아갈 것입니다 그래서 우리가 할 수 있었던 것은 오늘이었습니다

변화를위한 데이터 솔루션을 발표하고 있습니다 비영리 단체를위한 프로그램입니다 전 세계 어디서든 필요한 곳을 이동할 수 있으며, Google 클라우드 크레딧에 액세스하고, 자체 교육 자료와 함께 실습을 가능하게합니다 말했듯이 우리의 목표는 비영리 단체의 분석 및 기계 학습을 민주화하십시오 전 세계에 걸쳐 이러한 기능을 제공합니다

세계에서 좋은 일을하고 싶은 조직의 손에? 그래서 오늘 시작됩니다 우리가 시작하는 또 하나의 것 2030 시각화입니다 따라서 이것은 세계 은행, 유엔, UN 재단 및 기타 제휴 단체들 우리는 유엔 주변의 인식과 행동을 원한다 지속 가능한 발전 목표 다음 12 년 내에 17 가지 목표가 있습니다

우리는 만나고 싶다 그리고 기본적으로 이것은 스토리 텔링 경쟁입니다 학생, 세계의 대학원생, 그들은 앞으로 나아가고, 창조하고, 시각적 인 이야기를하고, 데이터에 기반한 통찰력 및 행동 Studio 및 BigQuery에 대한 공개 데이터 세트 BigQuery에는 70 개 이상의 공개 데이터 세트가 있습니다 사용할 수 있고, 오늘 분석을 시작할 수 있습니다 그래서 이것으로 여러분은이 비주얼 스토리를 만들어 낼 수 있습니다

9 월 말까지 제출하십시오 그리고 유엔 세계 데이터에 우승자를 발표 할 것입니다 10 월 두바이에서 열린 포럼 그래서 이것은 우리가 오늘 발표하는 것들 중 하나입니다 우리는 차세대 학생들을 원합니다

누가 이전에, 우리는 약 8 천만 G Suite를 사용하는 학생들 비슷한 기능을 확장하고자합니다

잠재 고객을위한 데이터 분석 분석, 시각화, 해결할 통찰력을 얻으 려합니다 그와 함께, 내가 이야기하고 싶은 것들 중 하나 우리의 파트너 생태계는 우리에게 매우 중요합니다 우리는 파트너 사를두고 있습니다 [INAUDIBLE]처럼, 우리에게는 놀라운 파트너가 있습니다 BigQuery 또는 다른 분석으로 데이터를 가져 오려면 우리가 가진 제품, 놀라운 파트너가 있습니다

이러한 솔루션을 제공합니다 우리는 데이터 통합 ​​파트너가 있습니다 우리에게는 시각화를위한 파트너가 있습니다 당신은 Looker의 이전 예를 보았습니다 Tableau는 그 큰 파트너입니다

딸깍 하는 소리 BI 툴을 제공하는 많은 파트너가 있으며, 뿐만 아니라 당신을 도울 수있는 많은 SI 파트너가 있습니다 당신이 가질 수있는 당신의 다양한 교제와 그래서 그것이 핵심입니다 Google은 플랫폼으로서의 통찰력의 리더로서, Forrester의 서비스 플랫폼 (platform-as-a-service) 그리고 나는 우리가 인정 받기를 바라고 있습니다 다가올 다가올 다가올 보고서들에 점점 더 많아지고 있습니다

나에게 중요한 점은 훨씬 더 많다는 것이다 솔루션에서 사용 가능한 BigData에 대한 정보 장소 저것 좀 봐주세요 GIS를 강조한 놀라운 세션이 있습니다 하나, 클러스터링에 대한 깊은 다이빙 엔터프라이즈 데이터웨어 하우스를 사용하면 Jordan Tigani의 엔터프라이즈웨어 하우스를 넘어서

빅 데이터에는 다른 좋은 세션이 많이 있습니다 회의 주제 참석하여 더 많은 피드백을주십시오 모두들 감사합니다 [박수 갈채] [음악 재생]

의료실손보험 질문드려요

질문 의료실손보험 질문드려요

안녕하세요

요즘들어 스트레스 받는 일이 생겨서

자주 아프고 몸 상태가 영 말이 아닙니다.

그래서 병원에 좀 자주 가게 되었는데

의료실손보험이 없어서 자꾸 병원비만 나가더라구요.

그래서 의료실손보험 가입에 눈독을 들이고 있는데요,

저 같은 경우는 의료실손보험 중 좀 사람들이 많이 가입하는

의료실손보험을 알고 싶고

대체로 의료실손보험 보험료는 어느정도인지

또 보장같은것도 알아보고 싶습니다.

혹시 제가 열거한 의료실손보험…에 대한 사항들

쉽게 설명해주실 수 있나요? 

답변 기다리겠습니다 

답변 20세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

7,339
6,889

KB손보 로고
KB손보

7,826
7,005

MG손보 로고
MG손보

7,793
7,014

메리츠화재 로고
메리츠화재

8,318
8,208

삼성화재 로고
삼성화재

9,090
7,856

한화손보 로고
한화손보

7,549
5,963

현대해상 로고
현대해상

7,716
7,161

흥국화재 로고
흥국화재

8,498
7,939

답변 30세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

9,464
10,978

KB손보 로고
KB손보

10,551
11,604

MG손보 로고
MG손보

11,117
13,378

메리츠화재 로고
메리츠화재

10,970
12,784

삼성화재 로고
삼성화재

12,273
14,732

한화손보 로고
한화손보

10,407
11,167

현대해상 로고
현대해상

12,392
12,177

흥국화재 로고
흥국화재

11,642
14,481

답변 40세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

13,087
16,472

KB손보 로고
KB손보

13,359
16,962

MG손보 로고
MG손보

15,831
19,566

메리츠화재 로고
메리츠화재

14,073
18,142

삼성화재 로고
삼성화재

15,790
21,242

한화손보 로고
한화손보

14,101
16,224

현대해상 로고
현대해상

13,217
14,922

흥국화재 로고
흥국화재

15,121
19,380

답변 50세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

20,162
27,770

MG손보 로고
MG손보

23,152
30,360

삼성화재 로고
삼성화재

24,501
36,431

한화손보 로고
한화손보

19,866
26,573

현대해상 로고
현대해상

21,422
26,950

답변 60세 기준 단독실비보험 보험료 안내
DB손해보험 로고
DB손해보험

33,446
37,587

MG손보 로고
MG손보

35,502
39,769

삼성화재 로고
삼성화재

38,268
44,881

한화손보 로고
한화손보

32,274
38,065

현대해상 로고
현대해상

35,607
39,390

답변 안녕하세요!보험알리미 김지연입니다^^의료실손보험에 대해 …


안녕하세요!
보험알리미 김지연입니다^^
의료실손보험에 대해 질문을 주셨네요~ 
의료실손보험은 요즘 많은 분들이
가입하고 계시는 보험 중 하나랍니다~
그 만큼 의료실손보험 가입할 때
보장, 보험료를 꼼꼼히 따져보고 가입해야
좋겠죠?
저 같은 경우에는 의료실손보험 가입할 때
의료실손보험관련 비교사이트 이용했었어요~
제가 질문자님에게 도움이 되도록
의료실손보험 비교사이트와
의료실손보험관련 정보 알려드리도록 할게요 


의료실손보험은 병원에서 치료나 입원을 하게 되었을 때

병원비에 대해 보장을 받을 수 있는 보험을 말해요~

내가 지출하게 된 병원비의 70~90%를 다시 돌려받을 수 있는데요


의료실손보험이 보장해주는 범위가 워낙 넓어서

감기같은 소소한 질병부터 상해, 큰 질병까지 보장이 되는데요,

다만 의료실손보험도 보장해주지 않는 부분이 있어요 .

대표적으로 비급여 치과치료, 비급여 한방치료, 임신, 출산 산후기 입원

등등에 관해서는 보장이 되지 않습니다 .


평균연령이 점점 늘어나고 고령화시대가 늘어나고 있는데

그 중 필수적으로 들어야 할 보험을 제대로 준비해두지 않아

병원비 부담 문제로 피해를 보시는 분들이 있어요 .


그래서 그 전에 질문자님같이 미리 의료실손보험을 들어놓으시면

경제적 부담을 미리 줄이실 수가 있습니다 !


의료실손보험은 가입자의 나이,성별,직업 등에 따라 보험료가

달라지고 5년 이내의 병력사항을 살펴보기도 하므로 만일 병력사항이

있으실 경우 심사를 통해 가입을 하셔야 하구요 ,

또한 의료실손보험은 모든 보험사에서 갱신형 상품으로 통일하여

판매하고 있기 때문에 다른 특약을 비갱신으로 추가하셔서

설계하시면 보험료 부담을 줄이실 수가 있습니다 .


그리고 의료실손보험은 여러개 가입한다고 해도 중복보상이 불가능하므로

여러개 가입하시는게 아니라 하나의 의료실비보험을 들어놓는 것이기 때문에

꼼꼼하게 알아보는 것이 중요하고

요즘은 대부분의 보험사 상품들이 모두 갱신을 통해

100세까지도 보장이 가능하므로 보험료, 특약비교를 통해 저렴한

의료실비보험 상품으로 가입하는 것이 좋습니다 .


이렇게 의료실손보험을 가입하실 때 요령 몇가지를 설명드렸는데

이것가지고는 사실 혼자 알아보시기가 복잡하고 어려우실 수가 있는데

그럴 경우 보험비교사이트를 이용하시면 한결 편리하게 가입을 할 수 있어요 ~


의료실손보험 비교사이트는 각 보험사마다의 상품들을 한 곳에 모아

보장과 특약, 보험료 등을 비교견적 내볼 수 있는 사이트인데요,


이리저리 발로 뛰어다닐 필요없이 인터넷 하나로 해결할 수 있다보니

많은 분들이 비교사이트를 통해 가입을하고 계세요 .

또한 어려운 부분에서는 보험 전문가에게 상담을 받으면서

가입할 수 있으니가 손해보는 보험에 가입할 일도 없구요 .


나에게 꼭 맞는 보장과 특약으로 견적을 내주니까 또

온라인을 통해 가입하기 때문에 보험료까지 절감됩니다 . 

제 생각엔 보장좋고 저렴한 보험 드는데 믿을 만한 전문가와

상담하는게 제일 좋은 것 같아요혼자 알아보는데는 한계가 있더라구요.


대표적인 의료실손보험 비교사이트주소 상단 네임카드에

남겨드릴게요~ 상담 무료로 받아볼 수 있으니 한 번 들어가보세요.

싱크로율 200%에 달하는 공포 웹툰 ‘타인은 지옥이다’ 가상 캐스팅

싱크로율 200%에 달하는 공포 웹툰 '타인은 지옥이다' 가상 캐스팅 [인사이트] 석태진 기자 = 후덥지근한 날씨 때문에 땀이 줄줄 흐르는 요즘 선풍기나 에어컨 바람도 시원하고 좋지만 등골 오싹해지는 '공포 웹툰'이 무더위를 날리는데 제격이라 할 수 있다

상상력과 집중력을 자극하는 많은 공포 웹툰들 가운데 최근 네이버에서 연재 중인 '타인은 지옥이다'가 많은 독자들의 사랑을 받고 있다 지난 3월 10일 연재를 시작해 7월 25일 기준으로 40화까지 공개된 '타인은 지옥이다'는 네이버 목요, 일요 웹툰으로 아직까지 평점 10점을 굳건히 지키고 있다 이야기는 직장생활 때문에 서울에 올라와 고시원 생활을 시작하게 된 주인공 윤종우을 중심으로 흘러간다 고시원 202호에 자리 잡은 종우는 같은 층을 쓰는 입주민들과 여러 가지 일을 겪으며 점점 지쳐간다 조금씩 조여오는 공포감이 인상적인 웹툰 '타인은 지옥이다'가 만약 영화나 드라마로 제작된다면 어떤 배우들이 캐스팅될까

누리꾼들이 추천한 싱크로율 200% 달하는 공포 웹툰 '타인은 지옥이다' 가상 캐스팅 명단을 뽑아봤다 배우 최우식 – 202호 윤종우 배우 진선규 – 206호 배우 마동석 – 205호 안희중 박노식 – 204호

배우 김성오 – 203호 배우 김해숙 – 주인 아줌마 배우 김정현 – 대학 선배 재호

날이 갈수록 ‘그림체’가 점점 예뻐지고 있는 웹툰 ‘유미의 세포들’

2015 년 4 월부터 네이버를 통해 웹툰 '유미의 세포'가 시작됩니다 주인공 유미의 감정과 생각을 머릿속에두고 생각해 보라

이 웹툰은 누구나 공감할 로맨스를 만들었다 유능한 사람들은 자신의 얼굴을 웹툰 팬들에게 쏠지도 모른다 최근 다양한 온라인 커뮤니티에서 '유미의 세포들 그림 변화'제목의 글이 화제를 모입니다 1 회차에서 평범하고 전투가 끝나면 살아남을 수 있습니다 인척 초반 유미는 턱선까지 앞머리에 앞머리가 약간 지저분합니다

기묘한 얼굴과 까만 눈동자는 20 대 직장인의 모습이다 그런데 100 화를 넘어서서 유미의 얼굴을 조금 바 꾸었습니다 머리는 더 단단 해졌다 턱선과 옆 태도는 해체하고, 머리를 묶는다 어느 정도 夕새夜 키친

유머의 비주얼은 현재의 남자 친구 유머와 비법을 강조한다 머리카락과 수염, 머리카락, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말, 머리말 비단 유미 캐릭터 만의 변화는 아니다 유미의 전작 친구 구요 동글 한 얼굴에서 더 많은 사람들이 추락했습니다

추측을 내탕합니다 작가의 그림 실력과 힘 그리고 실력과 캐릭터는 자아를 사용하여 사랑스럽고 개성을 닮았으며 변화와 분석을 통해 나타납니다 중앙 일보와 인터뷰에서 중앙 일보와 인터뷰는 "내 그림은 점점 더 보잘것 없으며 중년의 그림은 바뀌 었"고 덧붙였다 어쨌든 "유머가 다른 사건을 외면하고 성장하는 모습을보고 싶다"고 덧붙였다 왜 유대인의 세포는 유능한 사람이 아닌가?

무료웹툰 성인웹툰 웹만화 사이트 추천합니다 무료가입입니다 [18+]

요즘 웹툰 사이트 고르는데 첫번째 요소가 고를 작품이 많고 이벤트가

많은거죠 특히 무료코인 이벤트 일반 연예 성인 BL 에서 실사툰까지 종류도 다양하고 볼만한 웹툰도 무료가입에 매일 공짜로 볼수도 있고 종류가 많으니 맘에 드는 웹툰도 찾기

쉽고 특히 개인적으론 실사툰은 생소 하고 호감은 아니었는데 여긴 잘 찾아 보면 실사툰도 완전 이쁜거 많아요 골라보는 재미가 아주 쏠쏠합니다 심심할때 무료로 찬찬히 보면서 고르기

“박재동”, ‘후배 작가를 성추행했다는 증언이 나왔다.

"박재동", '후배 작가를 성추행했다는 증언이 나왔다 웹툰작가 이태경씨 방송에 증언

“주례 부탁하러 갔다가 성추행 당했다” 박 작가 “곧 입장 표명하겠다” 시사만화의 대가로 널리 알려진 박재동(66) 작가(한국예술종합학교 교수)가 후배 작가를 성추행했다는 증언이 나왔다 공중파방송 <에스비에스>는 26일 <8시뉴스>를 통해 웹툰 작가 이태경씨가 2011년 결혼을 앞두고 박 작가한테 주례를 부탁하러 갔다가 박 작가가 자신의 허벅지를 만지는 등의 성추행을 했다고 증언한 내용을 보도했다 <에스비에스> 보도에 따르면, 이 작가는 박 작가가 허벅지를 쓰다듬는 성추행 외에도 “두 사람 모두 성행위를 해봤느냐”고 묻는가하면, “처음 봤을 때부터 네가 맛있게 생겼다고 생각했어”라는 등의 성희롱성 발언도 했다고 전했다

이 작가는 “문제 제기를 해야 된다고 생각했으나 당시 결혼을 해야하니까 너무 불미스러운 일이었다”며 2016년 삽화가로 참여한 한국만화가협회 성폭력 사례집에 이런 피해 사례를 알렸다고 밝혔다 그는 박 작가가 당시에도 전화를 걸어와 “이건 가정인데 만약에 네가 사례집에 그걸 썼다고 그러면, 너랑 당사자랑 얘길 해보고…”라며 캐물은 녹취 내용도 공개했다 박 작가는 이에 대해 <한겨레>와의 통화에서 “기억을 소상히 정리해 곧 입장을 표명하겠다”고 말했다

Apache Spark Tutorial | What is Apache Spark | Project Spark | Spark Tutorial | Intellipaat

안녕 얘들 아 Intellipaat에 의해 또 다른 흥미로운 세션에 오신 것을 환영합니다 오늘 우리는 Apache Spark에 대해 논의 할 것입니다

오늘 세션에서 우리는 왜 아파치 스파크? Apache Spark이란 무엇입니까? 직업 기회와 실습 아파치 스파크 대 Hadoop, Apache의 다른 기능들 불꽃 스파크 아키텍처 및 구성 요소, 커리어 기회 및 실습 운동 이제 Spark의 사용 사례를 살펴 보겠습니다 세계 최고의 선구자 중 하나 전자 상거래 거인은 비즈니스와 비즈니스를 촉진하는 eBay입니다 비즈니스 판매

이베이 (eBay)는 1 억 6 천 2 백만 명의 적극적인 고객이있는 시장입니다 2500 만 판매자 eBay는 구매자와 판매자가 가능한 한 효율적으로 데이터를 작성하려고했습니다 그들은 사이트에 8 억 개의 목록과 88 개의 새로운 백만 개의 목록을 가지고 있기 때문에 목록이 매주 추가됩니다

eBay의 초기 사용자 패턴은 검색 지향적이었고, 사용자는 제품을 찾기 위해 검색 목록을 검색해야했습니다 전자 상거래가 전환됨에 따라 사용자는 전자 상거래를 탐색하고 목록에서 검색하는 대신 제품을 구입하십시오 이를 위해 eBay는 전체 데이터 모델을 전환해야했습니다 처음에는 eBay가 실시간과 호환되지 않는 Hadoop 아키텍처를 사용하고있었습니다 데이터 모델이므로 이베이는 실시간 아키텍처 도구를 찾고있었습니다

글쎄, 아파치 스파크는 그들을위한 편리한 도구였습니다 eBay는 Apache Spark를 사용하여 이전 고객을 대상으로 고객을 대상으로 오퍼를 제공합니다 경험을 향상시키고 고객의 경험을 향상시키는 데 아무런 노력을 기울이지 않는 시도 그들과 함께 이를 통해 사전 예방 적 방식으로 고객이 원하는 것을 제공 할 수있는 고객 경험을 향상시키고, 고객이 효율적으로 원활하게 고객의 시간을 처리 할 수 ​​있도록 도와줍니다 전자 상거래 사이트

eBay는 Apache Spark가 Hadoop YARN을 활용하도록하여이 마법을 적용합니다 Apache Spark이란 무엇입니까? 그게 뭔지 알아? Apache Spark는 특별히 다루기 위해 개발 된 오픈 소스 엔진입니다 대규모 데이터 처리 및 분석 비정형 데이터가 많고 실시간 분석을 수행하기 위해 속도를 높여야하는 필요성 때문에이 기술은 실제로 실현되었습니다 Big Data 전산 연습을위한 대안

실시간 데이터 분석의 경우 Spark는 다른 모든 솔루션 우리가 이미 가지고있을 때 생각하고 있을지도 몰라 데이터를 처리하는 Hadoop은 왜 Spark가 필요합니까? 스파크를 하둡보다 더 대중적으로 만드는 것은 무엇입니까? 이에 답하기 위해 우리는 개념을보아야 만합니다 배치 및 실시간 처리 일괄 처리는 일정 기간 동안 데이터를 수집하는 것입니다

그것을 처리합니다 예를 들어 급여 및 청구 시스템 실시간 처리의 경우 데이터 수집 및 처리가 발생합니다 동시에 ATM은 실시간 시스템의 한 예라고 생각할 수 있습니다

비밀번호 및 기타 세부 정보를 입력하면 원하는 금액을 받게됩니다 Hadoop은 개념을 기반으로합니다 이미 저장되어있는 데이터 블록에서 처리가 이루어지는 일괄 처리 처리 기간 동안 그러나 Spark는 실시간으로 데이터를 처리 할 수 ​​있으며 약 100 배 더 빠릅니다 대규모 데이터 세트를 일괄 적으로 처리하기위한 Hadoop MapReduce보다 스파크의 또 다른 장점은 과거 데이터와 실시간 데이터를 모두 처리 할 수 ​​있다는 것입니다

화면의 이미지는 Hadoop과 Spark With Spark의 주요 차이점은 여러 응용 프로그램을 처리 할 수 ​​있다는 점입니다 이력 데이터와 실시간 데이터를 기반으로합니다 Hadoop에 비해 Spark는 사용하기 쉽고 처리 속도가 빠릅니다 스파크의 특징을 살펴 보겠습니다 Spark 코드는 Java, Scala, Python 또는 R 언어로 개발할 수 있습니다

Spark는 MapReduce보다 100 배 빠르게 실행됩니다 Spark는 텍스트, CSV, RDBMS, JSON, Hive, 카산드라 등 Spark는 실시간 계산 기능을 제공합니다 Spark는 기계 학습도 지원합니다 (기계 학습) 이것은 Spark을 IT 분야에서 급성장하는 기술로 만든 장점입니다 이제 우리는 Spark 아키텍처로 이동합니다

스파크 아키텍처에는 드라이버 프로그램, 클러스터 관리자 및 다양한 작업자 노드가 있습니다 운전자는 중앙 및 스파크 셸의 진입 점 응용 프로그램의 main () 함수를 실행하고 Spark 컨텍스트를 만듭니다 드라이버는 모든 Resilient Distributed Databases에 대한 메타 데이터를 저장합니다 및 파티션

클러스터 관리자는 책임이 있습니다 Spark 클러스터에서 리소스를 얻은 다음 Spark 작업에 할당합니다 Spark 애플리케이션이 할당을 위해 활용할 수있는 클러스터 관리자에는 3 가지 유형이 있습니다 다양한 물리적 자원의 할당 해제 등이 포함됩니다 다음 슬라이드에서 이에 대해 논의 할 것입니다 실행 프로그램은 실행을 담당하는 분산 에이전트입니다

할 수 있습니다 모든 Spark 애플리케이션에는 고유의 Executor 프로세스가 있습니다 Executors는 일반적으로 Spark 응용 프로그램의 전체 수명 동안 실행되며 이 현상을 "집행자의 정적 할당"이라고합니다 스파크가 어떻게 작동하는지 이해합시다 Apache Spark는 독립 실행 형, Hadoop에서 세 가지 방법으로 실행됩니다

MapReduce의 YARN 및 Spark 스파크의 가장 단순한 배포 Hadoop 클러스터가 모든 리소스를 정적으로 갖추고있는 독립 실행 형 MapReduce와 병렬로 실행됩니다 스파크는 사전 설치없이 YARN 상단에서 실행할 수도 있습니다 비록 YARN이 없다면 Spark를 MapReduce와 함께 사용할 수도 있습니다 이렇게하면 배포 부담이 줄어 듭니다 어쨌든 Spark가 배포되면 구성에서 필요한 리소스를 할당합니다

Spark가 연결되는 순간 노드에서 집행자를 얻습니다 이러한 실행자는 계산을 실행하고 데이터를 보호하는 프로세스 일뿐입니다 이제 응용 프로그램 코드가 실행 프로그램으로 전송됩니다 이제 스파크 생태계를 만드는 스파크 구성 요소를 살펴 보겠습니다 Apache Spark Core는 Spark 애플리케이션의 기본 처리 엔진입니다

가장 중요한 기능에는 메모리 내 처리 및 외부에서 참조되는 데이터가 포함됩니다 데이터 소스 Spark Streaming은 고속 계산 기능을 제공합니다 실시간 데이터 분석을 제공하기 위해 스트리밍 데이터와 잘 작동합니다 데이터는 여러 배치로 분리되며 RDD 추상화를 사용하여 데이터가 스트림 데이터의 요구에 맞게 대규모 병렬 방식으로 반복 처리됩니다 처리

Spark SQL은 Schema RDD라는 새로운 차원의 데이터 추상화를 만듭니다 SQL을 배치하여 구조화 된 데이터와 반 구조화 된 데이터 모두를 독점적으로 사용하기 위해 검색어 언어 GraphX는 Apache Spark 프레임 워크의 그래프 처리 기능으로 반복적 인 그래픽 계산, 탐색 분석 및 ETL의 결합입니다 기능 스파크는 기계 학습 알고리즘 및 메모리 기반의 Spark를위한 Machine Learning 프레임 워크를 제공하는 MLlib 라이브러리 분산 환경

스파크의 이러한 기능은 다음과 같습니다 광범위한 산업 분야를 망라하는 기업들이 신속하게 채택했습니다 Netflix, Facebook 및 eBay와 같은 인터넷 강국 거대한 규모의 스파크를 배치했다 1000 여명의 기고가와 함께 큰 데이터에서 가장 큰 오픈 소스 커뮤니티가되었습니다 250 개 이상의 조직에서 PayPal은 또한 Spark 기술을 사용하여 대규모 데이터를 처리합니다

폐쇄 루프 지불 플랫폼이므로 매일 수십억 개의 데이터 이벤트를 처리합니다 위험, 지불, 웹 행동 및 신원과 관련된 정보를 수집합니다 성공적인 거래 횟수를 극대화하기 위해 상인을 돕기 위해 데이터 처리 솔루션을 사용합니다 Spark은이 분야에서 중요한 역할을 담당하며 PayPal이 대규모 데이터를 영향력있는 가맹점 솔루션을 가능하게합니다 이제 우리는 운동에 손을 가자

IoT for Oil & Gas – The Power of Big Data and ML (Cloud Next ’18)

[음악 재생] ARUN SUBRAMANIYAN : 좋습니다 안녕하세요

와줘서 고마워 나는 Arun Subramaniyan입니다 데이터 과학 및 분석 팀을 이끌고 있습니다 Baker Hughes, GE의 회사 우리는 오늘날 규모에 맞춰 분석 기술을 다루는 방법에 대해 이야기 할 것입니다

산업 세계를 위해 특히 석유와 가스에 대해서는 더 일반적이지만, 확장 가능한 측면은 무엇이며 무엇이 무엇인가? 애널리틱스의 공통점 산업 세계에서 그리고 조금만주고 문제의 종류 소개 우리가 관심을 가지고있는 우리는 더 큰 GE를 의미하므로 더 큰 GE 회사입니다 그래서 모르는 사람들을 위해, 비행기가 2 초마다 날아 다닌다 GE 엔진이 장착 된 세계 어딘가에 있습니다

세계 권력의 약 30 %가 한 종류 또는 다른 GE 터빈에 의해 생성된다 그리고 우리는 GE 회사 인 베이커 휴즈 (Baker Hughes) 지난 7 월 GE 석유와 가스를 Baker Hughes와 합병하여 자신의 장점으로 큰 회사 [부적절한] 자신의 장점 그러나이 합병은 첫 번째, 세계 최초의 풀 ​​스트림 석유 및 가스 회사 이것으로 우리는 첫 번째 회사를 의미합니다 석유 탐사를 할 수있는 세계에서, 기름을 추출하고, 기름을 싣고, 정제하고, 할 정제 된 제품으로 무언가

그러니 에너지를 만들고 제품으로 뭔가 다른 것을 만드십시오 유일한 회사, 첫 번째 회사 저울에서 할 수있는 세상에서 자,이 개별적인 것들을 단독으로 수행하십시오 큰 공적이다 한 회사에서 이러한 모든 작업을 동시에 수행 반복적으로 많은 모델을 구축해야합니다

그리고 나는 심지어 무엇을 만지지도 않았다 우리는 의료 공간 또는 운송 공간에서, 예를 들면 이것들은 단지 간단한 예입니다 그리고이를 매일 대규모로 수행하기 위해 수천 가지 모델을 구축해야합니다 그리고 우리를 위해, 모델은 모든 표현입니다

입력 세트를 출력 세트에 연결합니다 이제는 간단한 방정식만큼 간단 할 수 있습니다 또는 본격적인 편미분 방정식 세계에서 가장 빠른 속도로 풀려면 약 2 개월이 걸립니다 슈퍼 컴퓨터 우리를위한 모든 것들은 하나의 모델입니다

이제 이것을 효과적으로 수행하기 위해, 우리는 물론, 그것에 대한 원료 인 자료가 필요합니다 그리고 우리는 두 가지 방식으로 데이터를 처리합니다 그래서 우리는 사일로의 두 가지 큰 이분법이라고 부르는 것을 가지고 있습니다 첫 번째 격납고는 데이터입니다 두 번째 격납고는 분석 또는 두 번째 격납고입니다

주제에 대한 전문 지식입니다 먼저 데이터 사일로를 다루어 보겠습니다 전체 산업 스펙트럼을 살펴보면, 첫 번째 것은 여기에 나열된 석유와 가스입니다 거기에서부터 항공에 이르기까지 런던에서 출발하는 뉴욕에서 출발하는 항공기 항공기는 약 20 년 전에 설계되었습니다

엔진이 많은 양의 데이터를 수집하지 않습니다 약 1 테라 바이트의 데이터가 생성됩니다 그것의 그것의 다량이 아닙니다 저장된다, 다량이 아닙니다 분석된다 그러나 오늘날의 최신 항공기는 약 1 테라 바이트 비행 시간당 석유와 가스 세계에서 그걸 가져 가라

이곳에서 근해 기름 장비는 지난 30 년 동안 대략 2 만 5 천에서 2 만 개의 태그가 데이터마다 초 그리고 거의 모든 것이 저장되었습니다 권력이나 운송 또는 항공과 비교 산업, 석유 및 가스 산업 적어도 몇 가지 규모가있다 주로 데이터 측면에서 보면 이 불확실성에 대처해야했다 저수지에 대해 아는 것이 거의 없습니다

실제로 모델링하거나 제어 할 수있는 기능은 거의 없습니다 지하에서 일어나는 일에 대해 엔진은 복잡하지만, 매우 정교하지만 당신은 그 특정한 [INAUDIBLE] 주변의 거의 모든 것을 제어하십시오 그래서 불확실성은 존재하지만, 그것들은 훨씬 작습니다 따라서 석유 및 가스 업계에서 볼 수있는 데이터 세트 산업계에서 다른 무엇보다 현저하게 앞서있다

그러나이를 ERP 시스템의 모든 데이터 세트와 비교하면 – 전통적인 ERP 세계 – 지난 20 년 동안 지난 30 년 거래 데이터를 생각하는 몇 년 세트, 모든 종류의 유지 보수 기록, 당신이 가지고있는 어떤 종류의 정보 공유하고 저장하고 검색하는 중이다 전통적인 엔터프라이즈 세계에서 산업 데이터가 적어도 두 개 이상으로 왜소 해지지 않는가? 측면에서 볼 때 다섯 자리 수까지 의 양과 속도 그리고 개발 된 시스템이 없습니다 그 규모, 심지어 현대 산업에서도 무언가를 다루겠습니다 또는 인터넷 2

0 종류의 기술, 이 방에서 모든 사람들이하고있는 모든 것을 추적합니다 세상 어디에서나하는 모든 사람들 – 그들이있는 곳,가는 곳, 아마 그들이 할 일은 그것은 여전히 ​​상당히 왜소해진다

그리고 우리가 어떻게 해결할 지에 대한 몇 가지 예를 드리겠습니다 그러나 이것은 이야기의 한 단면 일뿐입니다 데이터 격납고는 스토리의 한 측면입니다 모두가 이야기하고 있습니다 이 이야기의 다른 측면은 분석적인 격납고입니다

또는 주제 사일로, 사람들은 수십 년 동안 분석 기술을 구축 해왔다 사람들은 50 년 동안 분석 기술을 구축해 왔습니다 우리가 사치와 건물을 가지고 있다면 처음부터 모델, 아직 데이터 세트에서 근면하게 준비해야합니다 좋은 일입니다 오늘 빌드를하기 위해 많은 프레임 워크가 있습니다

그러나 수십 년 동안 생산 되어온 모델이 있다면, 사람들이 이해하고, 그것을 생산에서 사용하고 있으며, 오늘 그것을 사용하는 사람들은 반드시 그렇지 않을 수도 있습니다 모델의 모든 뉘앙스를 이해하십시오 꼭 만져보고 싶지는 않습니다 반드시 조정하거나 변경하고 싶지는 않습니다 당신은 그것에 대해 조심하고 싶습니다

금융 세계에서 똑같은 일을합니다 재무 메트릭스를 변경하지 않으려 고합니다 20 년 동안 내부적으로 무슨 일이 일어 났는지 이해하지 못했습니다 매우 비슷합니다 유일한 차이점은 무언가를하는 결과입니다

잘못된 것은 파국적 일 수 있습니다 모델의 예측에 따라 우리가 결정해야한다고 상상해보십시오 그들이 근해 기름을 폐쇄해야하는지 장비는 하루 약 2 백만 배럴을 생산하고있다 특정 엔진의 상태를 예측하는 방법 또는 유지 보수를 위해 특정 항공기를 당겨 야합니다 이륙하기 전에 가져 가거나, 아니면 오늘 공항에서 출발 하시겠습니까? 잘못된 결정의 결과는 파국적입니다

위조 방지는 실제로 좋지 않습니다 따라서 우리가 일반적으로 사용하는 모델이 없습니다 거짓 음화가 괜찮 았던지를 구축하는 경향이 있습니다 우리의 거짓 긍정적 인 비율 – 그래서 일반적으로 높은, 대략 20 % ~ 30 % 정도 – 산업계의 모델에서는 괜찮을 것입니다 그러나 거짓 부정적인 비율, 의미 내게 무언가를 말하는 위험은 정말로 좋지 않을 때 괜찮습니다

가능한 한 0에 가깝거나 0에 가깝습니다 그것이 결과가 나오는 곳입니다 그 때문에 분석 사일로가 존재합니다 누군가에게 많은 전문 지식을 필요로하기 때문에 이러한 모델을 구축하고 유지 관리합니다 자, 우리가 들어 와서 이것을 확장하려면, 애널리틱스를 민주화해야한다면 베이커 휴즈 (Baker Hughes)와 같은 회사의 엔지니어 5,000 명에게 예를 들어, 나는 반드시 들어갈 수 없다

당신이하고있는 모든 것을 버리십시오 여기에 새로운 프레임 워크가 있습니다 모든 모델을 새로운 프레임 워크로 구축하십시오 일부는 그렇지만 대부분은 여전히 Excel 스프레드 시트로 돌아가며 어떤 경우에는 따라서 [알아들을 수 없는] 하지만 그것이 효과가 있고 작동한다는 것을 알고 있습니다

그래서 우리는 어떻게 든이 사일로를 함께 연결해야합니다 데이터 사일로와 분석 사일로 모두 근본적으로 페더레이션 된 오케스트레이션 엔진을 얻는 것, 당신이 서로 이야기하는 많은 모델들을 가지고 있다면, 반드시 독립 섬이 아니라 실제로 서로 이야기하는 모델은 기본적입니다 산업 세계에서 분석을 확장하려는 경우 그리고 그 몇 가지 예를 보여 드리겠습니다 여기에 표시되는 예는 도착하는 출력을 제공하는 Python 모델이 있습니다 Fortran 77 모델에 공급되었는데, 우리는 아마 블랙 박스로 실행하면 그 모델과 대화를하게됩니다

Go로 작성된 다음 C로 작성된 모델과 이야기합니다 그것은 우리에게 매일 나타나는 현실입니다 그것은 비범 한 예가 아닙니다 사실 아주 적은 예제가 있습니다 여기서 우리는 당신을 결과로 이끌어 줄 모델을 만들어야했습니다

하나의 프레임 워크에있는 것입니다 이제 이러한 것들을 나열했습니다 이 중 일부는 도발적 일 수 있습니다 당신이 말할 수있는 것들 중 일부 당신의 관점에 따라 신화 또는 현실입니다 그리고 당신의 경험은 어떠 했습니까? 그러나 우리는이 모든 것을 들었습니다

그리고 우리는 매일 고객과 이야기합니다 그리고 그들이 여행하는 곳과 관련하여 디지털화 그들이 여행에서 여행하는 곳 구름에 또는 아닙니다 AI를 믿든, 그들이 신화라고 생각하든간에 이러한 것들은 고객이 매일 우리에게 말하는 것입니다

자,이 진술에는 많은 진실이 있습니다 하지만 그들은 더 큰 진실을 감추고 있지, 그렇지? 예를 들어, 내 즐겨 찾기 중 하나 사람들이 신경 네트워크가 오래된 뉴스라고 말한 때입니다 일반적인 성명서는 90 년대에 내가 한 일이다 내 주인을하고 있었어 그들은 정말로 나쁘다

그들은 약 60 %의 정확도를 얻었습니다 그들은 정말로 의미있는 것을 얻지 못했다 엔지니어링 용어로, 우리는 계속 전진했습니다 이 새로운 신경 네트워크에 대해 새로운 점은 무엇입니까? 오고있는거야? 그리고 내가 여기에 열거하지 않은 다른 것은 사람들은 말했습니다 오, 저는 20 년 전에 깊은 학습을 해왔습니다

그리고 여기서 깊은 배움을하는 당신들에게는, 알다시피, 그건 정말 바보 같은 진술입니다 그러나 사람들이이 신화와 함께 걸어 다니는 이유는 그들이 결과를 얻지 못했기 때문입니다 모두가 분석을 통해 유망한 것으로 보입니다 그런데 분석 기술은 지난 25 년 동안 동일했습니다 이전에는 디지털 우물 이었지만, 그리고 그것은 실제로 1980 년대 후반과 90 년대 초반에 나왔습니다

그러나 그들은 유전 전체를 감지하고 말하기를 원했습니다 이것은 거대한 혁명을 일으킬 것입니다 그건 내가 와서 너에게 말하는 것과 같다 전자 우편은 당신을 더 생산적으로 만들 것입니다 그래서 무엇과 균형을 이루어야합니다

그리고 어떻게, 당신은 실제로 물건을 적용합니다 그리고 요점을 가져 오려면, 몇 가지 예를 들어 보았습니다 그리고 가장 좋아하는 것 중 하나 – 그리고 전체 공개, 권리? 그래서 내 배경은 항공 우주 공학을 통해 이루어집니다 나는 물리학의 세계에서 자랐다 우리는 데이터 과학을 필요로했습니다

우리는 물리학 때문에 대규모 데이터 과학을 해왔습니다 혼자서 충분하지 않았습니다 그러나 더 많은 주제 전문가들의 일반적인 압박 세상은에서 운영되고있다 [? 생물 물리학 ?] 우리는 이해한다 그것 그것은 모든 종류를 해결할 수있는 유일한 방법입니다

복잡한 문제들, 맞지? 그래서 당신이 예측한다면, 순전히 데이터에서, 특정 돌을 토지를 던지면 아무것도 몰라 중력에 대해서, 당신이 가야 할 유일한 것 던져지고있는 각 돌의 관찰이다 당신이 그 모델을 순수하게 구축했다면, 이것이 어떻게 생겼는지입니다 그래서 발사체가 가고 있습니다 우리는 말하는 것 이상을 모릅니다

그것은 단지 선형 투영입니다 이것이 내가 처음으로 관찰하는 것이라면, 추적하려면 10,000 회 이상의 관측이 필요합니다 그 돌은 심지어 내려올 것입니다 나는 중력에 대해 아무것도 모른다 그리고 심지어 가장 간단한 모델, 가장 정교한 모델 당신은 많은 관측을 필요로합니다

반대로, 당신이 고등 학생이라면 너는 똑같은 문제를 안고있어 여기 보시고, 작동을 멈췄습니다 당신이 필요로하는 모든 데이터는 단지 하나의 데이터라고 말해 줄 것입니다 포인트 필요한 것은 속도, 속도, 그리고 돌을 던진 각도

중력이있는 우주의 어느 곳에서나, 돌이 착륙 할 위치를 정확하게 예측할 수 있습니다 권리? 중학교 물리학조차도 그렇게 말할 것입니다 문제는 실제로 현실입니다 내가 어떤 각도로 돌을 던 졌는지 정확히 알지 못한다면, 나는 초기 각도에서 1 % 불확실성을 추가했다 나의 출력 변화는 약 20 %였다

풍속에 5 %의 불확실성이 있다면 갑자기 돌이 착륙하는 곳을 100 % 불확실성이 있습니다 그리고 이것은 당신이 다룰 수있는 가장 간단한 물리학 문제입니다 그것은 단지 하나의 변수 일뿐입니다 아주 작은 불확실성 예측하러 가야한다고 상상해보십시오

특정 엔진에 결함이 있는지 여부, 또는 해외 석유 굴착 장치를 폐쇄해야합니다 대규모 문제, 수천 개의 변수, 많은 불확실성, 당신이 모르는 많은 것들 당신은 여전히 ​​결정을해야합니다 따라서 물리학만으로는 심각한 재앙을받을 수 있습니다 사실이 문제에서 몇 가지 불확실성을 추가하면 그것은 돌이 뒤로 날아가고 있다고 말할 것입니다

그래서 우리는 그 점에 매우주의해야합니다 그리고 사람들이 일반적으로하는 또 다른 것 네가 말하는 데이터가 멋지다는 사실을 말하고 싶지는 않습니다 그것은 어디 에나 있습니다 모두는 그것을 좋아한다 그러나 현실은별로 유용하지 않습니다

따라서 이것은 실제 사용 사례입니다 세트는 실제 자산에서 나온 것입니다 이것을 매우 큰 규모의 자산이라고 생각하십시오 그것은 제트 엔진 일 수 있습니다 그것은 가스 터빈 일 수 있습니다

그것은 그러한 종류의 것들이 될 수 있습니다 우리는 장비 제조업체입니다 GE, GE [부적절한 GE]를 의미합니다 운영 방법에 관한 모든 데이터 세트가 있습니다 그래서 왼쪽 상단은 당신에게 작동 조건을 제공합니다

되고있는 변수 중 하나 이 특정 자산 수명의 전체를 측정했습니다 실제 데이터는 파란색 점으로 표시됩니다 그 밖의 모든 것은 우리가 추정하거나 생성 한 것입니다 다른 출처를 통해 우리가해야만하는 이유는 여기에 우리 데이터베이스에 있기 때문에, 기록의 시스템, 그것은 자산이 작동하기 시작했다고 2001 년 그것이 그들의 작동 상태입니다

그러나 실제로 1994 년에 가동되기 시작했습니다 그리고 많은 일이 일어났습니다 우리 기록 시스템이 실제로 따라 잡기 전에 그리고 시스템에 대해 아무 것도 예측하지 않으면 안됩니다 그리고 나는 말한다, 나는 단지 푸른 점들에 의해 간다 내 기술이 얼마나 정교한 지 상관 없다

내 데이터 과학자의 정교함, 심지어는 물리학 기반 모델러는 모델, 모델 데이터가 약 60 % 만 정확하기 때문에 여전히 잘못된 것입니다 그래서 우리는 그것을 위해 정확해야했습니다 그리고 지난 10 년 동안 우리가 이것을 파고 들기 시작하면서 또는 그렇게, 우리는 그것이 단지 – 누락 된 데이터는 모두 동일하게 만들어지지 않습니다 실제로 카테고리를 지정하는 다양한 방법을 발명해야했습니다 누락 된 데이터

그래서 당신은 부분적으로 하나를 잃어버린 것입니다 하나, 둘, 셋, 그런 것들을 완전히 잃어 버렸습니다 그리고 각각은 다른 기술을 사용하여 추정되어야합니다 그래서 우리가 시작한 데이터 규모를 상상해 봅니다 여기에는 누락 된 데이터가 포함됩니다

계속되는 확대 활동을 추가하면 누락 된 데이터를 다시 추가하려면 해당 문제 용적면에서 2 ~ 3 배 더 나 빠진다 데이터를 추가 할 때가 오기 때문에, 그리고 만약 내가 모두 파란색으로 코딩하는 색을 바꾼다면, 어느 것이 추정되었는지를 말해주는 것이 매우 어려울 것입니다 그리고 그것은 진짜였다 그리고 어떤 모델을 사용할 것인지 파악해야합니다 사용중인 데이터 세트의 버전, 어떻게 동기화되어 있습니까? 그것은 거대한 문제가됩니다

그리고 실제로 우리가 얼마나 잘 할 수 있는지에 대한 품질을 보여주기 위해 추정치, 오른쪽 위 그림, 파란색 막대 그래프, 실제 데이터 세트를 알려줍니다 평균은 약 559이고 표준 편차는 약 33입니다 추정 된 값은 매우 가깝습니다 560 대 31입니다 그래서 누군가가 잠시 후에 이야기하는 것은 매우 어렵습니다

데이터 세트가 진짜인지 아닌지 여부 태그를 달아 라 그리고 이것은 정기적으로 발생합니다 이것은 엔지니어의 책상에서 일어난다 데이터 세트에서 무언가를 바꿀 데이터 세트에서 다른 사람에게, 중요한 결과를 가져온 모델을 만들었습니다 그리고 그들은 그것을 내 보낸다

그리고 이것에 대한 기록 시스템도 없습니다 그리고 그것은 실제 기록 데이터가됩니다 앞으로 나아갈 것입니다 매우 신속하게, 산업 분석, 우리를 위해, 세 가지가 결합 된 것입니다 사람들은 오랫동안 분석을 해왔습니다

표준 소프트웨어 기술로 도메인 지식 새로운 어린이 블록은 데이터 과학을하는 새로운 방법이며, 주로 심층 학습 기반의 데이터 과학 및 새로운 방법 클라우드 마이크로에 소프트웨어를 구축하는 방법 서비스 자체 확장 성 전통적인 솔루션은 도메인 지식 소프트웨어로 나는 매우 어려운 문제를 발견 할 것이라고 말하고 싶다 어려운 문제에 대한 해결책을 찾거나, 건초 더미에서 바늘을 찾는 것처럼, 현대 데이터 과학과 현대 소프트웨어의 결합입니다 내가 실제로 가서 구매하기 전에 내가 무엇을 살 것인지 예측하기

그것, 어려운 문제 집에 얼마나 오래 걸릴지 예측하기 내가 갈 때 너에게 실제로 말해 집에 다시, 어려운 문제 많은 경우에 해결되었습니다 많은 경우, 그것은 이미 오늘 일어나고 있습니다

산업 분석에 대한 사례 그것은 정말로 세 가지 모두의 조합입니다 심지어 건초 더미에서 바늘을 찾지도 않기 때문에, 그것은 데이터 바다에서 바늘을 찾는 것입니다 대부분의 시간 때문에, 하나 네가 가려고하는 것은 예측한다 당신은에 대한 데이터가 없습니다 예를 들어 예측하는 경우, 타격이 실패한 [INAUDIBLE] 당신은 가스 터빈에 수백 개의 센서를 가지고있을 것입니다

하지만 실패 할 태세에 센서가 없습니다 여러 번, 가지고있는 센서 모두 교섭되고 반드시 교정되지는 않는다 지난 20 년 동안 그럼 정확히 어떻게 이해합니까? 당신이 가고있는 것을 예측하기 위해서 센서를 이해하지 않고도 예측할 수 있습니다 그 특별한 조각 주위에? 그것은 산업 사회가 직면 한 문제입니다

그리고 그것은 단지 하나의 밀교적인 문제가 아닙니다 하나의 문제는 여기에 있습니다 [INAUDIBLE] 거의 모든 가치 문제는 세 가지 전부 그리고 우리는 여기에 왔을뿐입니다 거기에 앉아서 이것이 가장 힘들다고 말했다

우리가 풀어야 할 문제 이것이 우리가 매일 해결해야하는 문제입니다 이들은 고객 문제입니다 매일 해결해야합니다 전통적인 기법으로 해결할 수 있다면 우리는 할거에요

우리가 순전히 데이터 과학으로 해결할 수 있다면, 우리는 할거에요 그게 가장 쉬운 일이기 때문에 거기에 많은 기술이 있습니다 거기에 많은 시스템이 있습니다 그게 당신이 그렇게 할 수있게 해줄거야

우리가 가야만했던 이유는이 세 가지를 모두 힘들게 결합했기 때문입니다 그것이 우리를 실제로 얻는 유일한 것이기 때문입니다 의미있는 솔루션으로 이제 우리는 디지털 쌍둥이에 대해 많이 이야기합니다 그리고 세계는 디지털 쌍둥이에 대해 많이 이야기합니다 오늘은 거의 학대를 받아야합니다

우리에게는 디지털 쌍둥이가 매우 특별합니다 우리는이 문제를 해결할 수 없기 때문에 거기에 도착합니다 이 개별 기술 중 하나를 사용하십시오 우리가 정의하는 방식은 디지털 표현입니다 자산 또는 프로세스상의 물리적 시스템 몇 가지 특징이 있습니다

그것은 생방송이어야하며, 지속적으로 업데이트가 가능해야하며, 동시에 적응 가능하고 확장 가능해야합니다 자, 내가 뭔가 특별한 것을해야한다고 상상해보십시오 또는 특정하고 확장 가능한 것을 만들어야합니다 동시에 의미, 나는 특정 자산의 모델을 구축한다

또는 특정 시스템 나는 그것이 구체적이라는 것을 구체적으로 만든다 그 특정한 체계에 정의에 따라 확장되지 않습니다 그렇다면 어떻게하면 두 가지가 모두 무언가를 구축하게 될 것입니다

확장 성? 심지어 더 나쁘게, 나는 그것을 구체적으로 만들었다 좋아, 어떻게 든 확장 할 수 있습니다 이제 적응할 수있게 만들어야합니다 나가 무언가를 바꾸면, 의미한다 물리적 인 시스템에서, 나는 펌프를 교체한다

나는 압축기를 바꿔야한다 그 부분 만 바꿀 수 있어야한다 내 전체 디지털 쌍둥이의 모든 것을 만들어라 다시 일해라 나는 돌아가서 모든 것을 재건 할 필요가 없다

그것들은 할 일이 매우 어렵습니다 우리가해야만하는 이유는 수천 쌍둥이 디지털 쌍둥이를 운영해야하기 때문입니다 모든 단일 구현에 대해 하루에 여러 번 밖에있어 따라서 수십만 개의 디지털 쌍둥이가 운영되고 있습니다 하루에 수천 번

그래서 우리는 이것을 대규모로 실행할 수는 없습니다 우리가이 일을 수동으로해야만한다면 일반적으로 이러한 일이 어떻게 수행되고, 일부 디자이너와 함께 6 ~ 10 PST로 팀을 구성 할 수 있습니다 시스템 전문가들이 느슨하게 내버려둬 라 약 6 개월 동안, 그리고 그들은 올랐다

하나의 모델은 구체적이지만 확장 가능하고 그렇지 않습니다 적응할 수 있는 그리고 우리가이 모든 세 가지를 혼합해야하는 이유는 우리는 항상 물리학으로 시작합니다 그것은 물리 기반이므로 우리가 실제로 위에 구축 할 수 있습니다 그것의 – 어디에서 물리학을 통해 우리는 알려진 지식을 수행 할 수 있습니다

그래서 뭔가가 문제가 될 것이라는 것을 안다면, 물리학은 당신을 정확한 해결책에 아주 빨리 데려 갈 것입니다 Probablistics는 그것이 우리가 시작한 곳이기 때문에, 우리의 불확실성으로 나는 실제 세계를 예언 할 수 없다 깊은 학습은 우리가 실제로 합리적으로 잘 자도록합니다 밤에는 우리가 가서 배포 할 수 있기 때문에 사물을 볼 수있는이 시스템들 내가 아는 바로는 잘못 될 것입니다 그러나 나는 그들이 무엇인지 모른다

나는 뭔가 잘못 될 것을 알고 있습니다 그게 내가 아는 전부 야 나는 어디 있는지 모른다 나는 언제인지 모른다 이러한 시스템을 통해 우리는 모델을보고 적응할 수있었습니다

그에 대한 그래서 몇 가지 예를 들어 드리겠습니다 나는 너를 위해 그것을 조금 구체화 할 것이다 디지털 트윈이 무엇인지 누군가 와서 그들이 당신에게 말한다면 디지털 쌍둥이를 가지고있다

그리고이 특별한 경우에, 이것은 인공 리프트 시스템을 갖춘 우물입니다 펌프로 생각하십시오 약 2 마일 깊이의 전기 잠수정 펌프 지구 아래 우리가 우물의 디지털 쌍둥이라고 할 때, 우리는 그것을 물 모델로 연결합니다 – 그것은 IPR 곡선입니다 파이프 모델, 펌프 모델, 마침내 당신을 얻는 튜빙 모델에 끝에서 차별화 가능한 압력

그리고 당신이 예측하려고하는 것은 무엇입니까? 작동 조건을 변경하는 방법은 무엇입니까? 펌프와 우물을 만들어서 내가 많이 생산하는지 확인하십시오 가능한 한 손상을주지 않고 둘 다 우물뿐만 아니라 펌프 그리고 이렇게하려면 디지털 쌍둥이 하나 순서대로 실행되는 약 8 개의 모델이 있습니다 내부적으로 반복 루프와 함께 따라서 선형 시퀀스가 ​​아닙니다 그리고 우리는 상당히 온건 한 수준이라고 생각할 것입니다

복잡한 디지털 쌍둥이 이제 우리가 사용하는 방식은 운영자가 들어가서 말하면서, 좋아, 내 작품을 어떻게 개선 할까? 내 우물 세트에서? 하나의 우물에서 그 질문에 대답하기 위해, 나는 일반적으로 디지털 쌍둥이를 운영해야한다 적어도 몇 천 번 그리고 이런 음모를 꾸미려면, 어디서? 나는 전체 액체 흐름 대 전력의 줄거리를 가지고있다 모든 매개 변수를 변경하여 해당 우물로부터 모든 회색 점들, 그 회색 점들 각각 디지털 쌍둥이를 통한 예측 또는 추론입니다 최상의 솔루션 제품군은 파란 점에 있습니다

문제는, 오늘 검은 색 다이아몬드에서 작동 할 수 있다는 것입니다 내 공간이 어떻게 생겼는지 몰라도 나는 무작위로 힘을 증가시키고 그 붉은 점들 중 하나를 때리십시오 내가 권력을 늘리는 곳의 맨 위에, 나는 더 지출하고, 나는 실제로 더 적게 생산하고 있습니다 직관적으로 당신이 몇 가지 사항을 조정할 수 있습니다 당신이 당신의 디자인 공간에 어디에 있는지 모른다

이 경우 상당히 간단한 문제입니다 약 6 개의 매개 변수 만 변경하고 있습니다 그러나 만약 당신이 유전에 있다면, 수백 개의 우물이 있습니다 자동으로 수천 개의 매개 변수로 이동합니다 최적화 문제

그리고 그것은 하루에 두 번 일어날 필요가 있습니다 하지만 오늘은 도구로 할 수있는 최선의 방법입니다 석유와 가스뿐만 아니라, 그러나 항공 및 권력 또는이 산업들 중 어느 하나에서, 이 같은 최적화를 실행하는 것입니다 글로벌 옵티 마이저이지만 로컬 옵티 마이저입니다 20 분에서 어디든지 걸릴 수 있습니다

고급 엔지니어가 실행하는 데 약 2 시간 정도 소요됩니다 그래서 이것을 실험으로 사용했습니다 작년 여름에 디지털 쌍둥이를 만들었습니다 처음에는 단일 우물을 위해 우물당 약 3 분이 걸렸습니다

우리가 이야기 한 기술로 그것을 확장했습니다 지금까지 결합 된 물리학, 데이터 과학 및 소프트웨어 확장 성 구름에 약 6 개월 후에 1,000 x 향상 단일 잘 최적화에서 우물집으로 달려 가기까지 약 3 분이 걸렸다 클러스터 내에서 약 20 개의 웰, 약 30 초 내에 최적화 할 수 있습니다 1,000 x 향상을 얻는 이유 원샷 최적화가 아니기 때문입니다

그것의 두더지 게임 그래서 당신은 하나의 우물에서 다른 것을해야합니다 또 다른 우물에서 뭔가 잘못 될 수 있습니다 그래서 당신은 고치고, 다른 곳으로 가고, 뭔가를 바꾸고, 다른 뭔가 잘못 됐어 그래서 당신은 반복적으로 그것을 여러 번합니다

사실, 그 해결책을 얻으려면, 약 20,000 번 모델을 실행해야합니다 그 대답을 얻으려면 그게 네가 얻는 곳이야 1,000 배 향상 그러나 우리는 그것을 한 단계 높은쪽으로 말하고 싶습니다

OK, 우리는 모델을 동일하게 유지합니다 우리는 소프트웨어를 확장합니다 우리는 그것을 클라우드로 밀어 넣습니다 우리는 실제로이 모든 모델을 조율합니다 그래서 그들은 클라우드에 있고 무엇을 볼 수 있습니까? 필드 레벨 최적화에서 실제로 수행 될 수 있습니다

오늘날이 솔루션은 존재하지 않습니다 그리고 솔직히 말해서, 우리 고객 중 누구도 우리에게 그것을 요구하지 않았습니다 사실 우리가 가서 발표 할 때 20-well 최적화, 응답, 이것은 훌륭합니다 오늘, 우리는 6 개월에 한 번 그렇게합니다 이걸로 우리는 2 주에 한 번 그것을 할 수 있습니다

그리고 현장 수준의 최적화, 대응 우리는 이것이 가능하다는 것을 정말로 몰랐습니다 그리고 그들의 반응은 실제로 반대였습니다 그들은 돌아와 말하기를, 당신은 5,000 개의 우물을 할 수 있습니까? 동시에 9,000 개의 우물을 만들 수 있습니까? 이것이 움직이는 속도이기 때문에, 6 개월 기한은 우리가 우리 내부 회의가 있었어 우리는 실제로 그것을 약 3 개월 만에 확장했습니다 우리가 어떻게 걸 었는지 보여 드리겠습니다

그리고 1 년 만에 엔지니어에게 어쩌면 단일 우물 최적화를 수행하는 것부터 필드 레벨 최적화를 6 개월마다 수행 하루에 두 번씩 놀라운 개선이 이루어집니다 [박수 갈채] 승인 그리고 깊은 학습을 사용하는 개념 석유와 가스 같은 전통 산업에서, 또는 항공, 또는 힘, 그들은 아주 위험 회피입니다 그들은 그 자체로 모델을 정말로 신뢰하고 싶지 않습니다 여기 사람들이 일반적으로하는 것들이 있습니다

이상 탐지에 대해 이야기합니다 그러나 산업 고객과 공감하는 것들 사람들은 실제로 길을 가고 싶지 않습니다 대부분의 비정상 탐지 시스템 거기서 너에게 와서 말하기를 원한다 여기에 일련의 변수에 대한 내 임계 값이 있습니다 내 임계 값을 설정하고 나면 뭔가 잘못 될 때 알려주십시오

그리고 이것은 가기 전에 선험적으로 이루어져야 만합니다 소지품 자동 변칙 탐지의 가장 큰 약속 깊은 학습을 통해 실제로 당신은 실제로 할 수 있습니다 반드시 알지 못하는 이상 현상을 잡아라 이 변칙은 미리있다

나는 예외적으로 훈련 할 필요가 없다 나는 규칙을 훈련 할 필요가 없다 사실, 나는 말할 필요도 없다 내가 볼 필요가있는 입력 집합은 무엇인가? 들어오는 데이터 스트림이있는 한 정상 상태가 무엇인지 알면서 오래 갈 수있어 비정상적인 것을 말하십시오

이것이 우리의 깊은 학습을위한 첫 번째 진전입니다 하지만 거기에서 실제로 배포를 시작했습니다 고객이 있던 고객을위한 실시간 애플리케이션 해양 석유 굴착 장치에서 약 10,000 개의 센서를 기록했습니다 실제로 이것은 고객이 수행했습니다 누가 실제로 이미 Google 클라우드로 데이터를 푸시했는지 우리가해야 할 일은 그들이 가진 6 개월의 데이터 세트로 훈련하는 것뿐이었습니다

정상이며 이상이 없었다 그리고 처음부터 시작하여 약 6 주 이내에, 데이터가 무엇인지 모르는 것에서 알지도 못하는 것 자산이 무엇인지, 비정상 탐지가 작동하는 것 응용 프로그램에서 대략 6 주 정도 걸렸습니다 그리고 여기서 볼 수있는이 특별한 응용 프로그램은, 붙잡힌이 실패 형태, 오른쪽 상단에 표시됩니다 예외 점수는 조합이있다

약 16 개의 센서 중 – 이상이 기록됩니다 다음 즉각적인 질문은 OK입니다 뭔가 잘못되어 가고있는 것이지만 이것은 단지 슬쩍입니다 또는이 문제의 원인을 알려주십시오 그것은 오른쪽 하단에있는 얼룩입니다

그리고 여기에 제대로 표시되는지 확실하지 않습니다 하지만 색상은 실제로 함수로 나타냅니다 시간은 실제로 어떤 변수가 이형 점수에 영향을줍니다 그래서 실제로 시작하고 알아낼 수 있습니다 무슨 일이 일어나는가

다음 단계입니다 그 다음 단계는 실제로 알아낼 수 있습니다 실제 원인은 무엇이며 근본 원인은 무엇입니까? 그리고 그것을하기 위해, 당신은 실제로 유지 보수와 함께 훈련합니다 이 시계열 데이터 세트와 함께 기록합니다 이것은 실제로 자동 인코딩입니다

약 24 가지 변수 세트를 실행 2 년 동안 빌드, 실행, 약 6 주 만에 TCP로 실행 실제로 다른 종류의 시스템 깊은 학습에서 사용하기에 상당히 효과적이다 이미지 인식 종류의 사용 사례입니다 그래서 이것은 유스 케이스입니다 여기서 당신이 여기에서 LA까지 운전한다면, 당신은이 많은 펌프를 보았을 것입니다 이것을로드 리프트 펌프라고합니다

그리고로드 리프트 펌프의 가장 큰 문제점 그들은 자주 실패합니다 그리고 그들의 고장 모드는 일반적으로 이 이미지를 사용하여 분류됩니다 힘의 음모입니다 막대의 변위는 어디입니까? 계속 나간다 그리고 그 모양이 어떻게 보일지에 따라, 숙련 된 엔지니어가 무엇을 말할 수 있는가? 실제 고장 모드입니다

문제는 두 가지 장애 모드가 다소 비슷하게 보입니다 그래서 당신이 물어 보는 사람과 언제 당신은 정확히 무엇이 이용 가능한지를 찾는 관점에서 묻습니다 실제로 작업을 중단하고 다시 잡아야합니다 반면에 전통적인 기법을 사용하면 거리 기반 메트릭이 전체 그래프임을 나타냅니다 이 새로운 그래프가 어떻게 생겼는지 말해봐

그리고 그것에 가장 가까운 것은 무엇입니까? 약 60 %의 정확도로 그래서 우리는 최신 테스트 및 이미지 물체 인식 모델을 채택했습니다 실패만으로 전송 학습을 사용하여 보강 우리가 가진 모드 이미지를 풀어 놓습니다 그래서이 데모를 실행하면 대부분의 탐지를 왼쪽에서 볼 수 있습니다 특정 펌프에 들어오는 데이터 세트입니다 특정 펌프 모델

오른쪽에는 모델이 무엇입니까? 실시간으로 예측하고 있습니다 따라서 이것은 구축 및 배치 된 깊은 학습 모델입니다 추론을 위해,이 특별한 경우에, 실제로 시간은 가장자리 장치에서 실행 중입니다 작은 [? Jetson?] 타이밍과 우리가 실제로 달리고있는 곳 그래서 당신은 즉시 잡을 수 있습니다

실제 장애 모드가 1 초 미만으로 지연됩니다 그리고이 모델은 실제로 아직 최적화되지 않았습니다 우리는 방금 발표 된 표준 모델을 보았습니다 우리가 가진 데이터 세트와 정확성 약 65 %에서 93 %로 증가했습니다 데이터 세트는 그렇게 높지 않았습니다

그래서 단지 수백 개의 고장 모드에서 그리고 모델을 최적화하면 최대 93 % 내지 약 97 %이다 마지막 3 %는 당신이 가지고있는 것입니다 가서 더 많은 데이터를 수집하십시오 그래서 이들은 몇 가지 예입니다

우리가 현장에서 구축하고 배치하고있는 둘 다 전통적인 심층 학습, 증강 깊은 학습과 다른 종류의 심층 학습 모델 우리가 아주 효과적으로 만들고있다 지식 시스템입니다 그리고이 고객에 대한 요청은 두 고객에게서 나왔습니다 요청이 있던 곳에 우리는 많은 서류를 가지고있다

지난 30 년에서 50 년 동안 우리가 만들어 낸 것입니다 우리는 많은 교육 자료를 가지고 있습니다 우리가 신입 사원을 위해 일반적으로 사용하는 우리의 작업에 대한 훈련을 받고 실제로 속도를 높일 수 있습니다 우리의 주제 전문가들과 아주 빨리 오늘날 대부분의 산업이 직면하고있는 것 문제의 이분법이다

첫 번째 문제는 경험 많은 인력의 상당 부분을 잃어 버림 향후 5 년에서 10 년 사이에 다른면에서, 들어오는 새로운 인력 학습과 상호 작용에 익숙하다 매우 다른 방식으로 그들은 꼭 앉아 있기를 원하지 않는다 그냥 지나가고 훈련하는 3 주간의 훈련을 통해 하나의 작업 그들은 배우기를 원합니다 그들은 검색하고 정보를 찾을 수 있기를 원합니다

그들이 그것을 필요로 할 때 문제는 그것을 가능하게하고 교량에 다리를 놓는 것입니다 은퇴 한 사람들 사이의 격차 들어오는 사람들과 신속하게 배우고 적응할 수있는 지식 시스템이 필요합니다 그래서이 경우 지식 시스템을 구축했습니다 그래서 우리는 표준 영어 NLP 모델을 가지고있었습니다

우리는 그것들을 가져 왔고 우리는 그 모델들을 훈련 시켜서 이해했습니다 기술 영어 그러면 어떻게 해석 표를 보냅니 까? 어떻게 테이블과 자막을 해석합니까? 어떻게하면 자연어 쿼리를 얻을 수 있습니까? 순수한 검색이 아닌 실제로는 답변을 반환하려면 텍스트를 생성하는 무엇인가? 그래서 우리는 그것을 지어야했습니다 그리고 우리가 그것을 만든 후에 우리는 우리가 그것을 구축하기 위해 가야하는 자료의 코퍼스, 모든 주제에 대한 전문성을 가지고 확장되어야했다 우리는 내부적으로 Baker Hughes, GE에있었습니다

그래서 우리는 영어를 사용하는 모델을 만들었습니다 기술 언어 이해하기 모든 기술 언어 문서를 기반으로 세상에 나와있다 그런 다음 우리는 그 모델을 기름과 가스 인으로 만들었습니다 사실, 우리는 그것을 BH-GE 사람으로 만들었습니다 왜냐하면 그것은 우리의 언어를 이해했기 때문입니다

그런 다음 해당 모델을 고객에게 적용하려고했습니다 BH-GE 사람이 말하는 것과 같았습니다 BP 나 Shell의 사람에게 우리는 서로를 이해할 수 있지만, 우리는 우리의 용어를 정확하게 모른다 우리는 우리 자신의 두문자어를 사용합니다

그래서 우리는 고객으로부터 문서를 가져와야했습니다 이 모델을 보완하기 위해 그래서 자연 언어를 이해하는 시스템에 도달하는 것입니다 쿼리, 고객의 컨텍스트에서 응답, 예를 들어 사용자 입력을 얻으려면 석유와 가스의 철자 교정이 진행 중입니다 특정 고객 및 고객 별 답을 줄 수있는 근거에 근거한 추천을 제공합니다 가서 일반적인 질문을하면, 물론 Google이나 모든 검색 엔진으로 이동할 수 있습니다

그런 다음 일반적인 질문을하면 매우 일반적인 대답을 얻습니다 그들이 정말로 원하는 것은 대답입니다 그 사람의 그 회사의 맥락에서 질문합니다 물었다 이 간단한 예제를 얻으려면 누군가가 가서 "gammar"에 타이핑 해보는 일 그래서 당신이 오늘 구글에서 그것을 시도한다면, "문법"또는 "문법"으로 수정되거나 많은 영어 교정 ​​중

그들이 실제로 원했던 것은 "감마 보드"또는 "HT 감마 엘리트" 이는 해당 특정 고객에만 해당됩니다 그들은 또한 "문법"과 다른 것들을 원했고, 그러나 그들은 많은 순위를 매겼을 것이다 범용 검색 엔진이 당신에게 줄 것입니다 이 확장을 상상해보십시오

자연 언어 쿼리 및 보고서 입력 시작, 실제 보고서가 생성됩니다 당신이 입력 한 쿼리에 대해 스스로 훈련 할 수 있습니다 그것은 정말로 석유와 가스의 언어 모델이 사용 중입니다 사실, 우리가 중요한 계산이 필요한 내장 석유 및 가스 언어 모델입니다 그리고 우리는 우리가 말하는 것처럼 계속 진화합니다

그리고 우리는 물론 영어로 시작했습니다 그러나 우리가 국제적인 회사이기 때문에, 또한 이해의 코퍼스 어떤 산업 세계에 대해서도 단지 영어가 아닙니다 우리는 실제로 번역기를 만들기 시작했습니다 영어에서 모든 종류의 다른 언어로도 변환 할 수 있습니다 승인

우리가 얘기하고 싶은 다른 것 분석을 민주화했다 이제 데이터 사일로 (data silos)에 대해 이야기하고, 분석에 대해 이야기하고, 또는 주제 전문가 사일로,하지만 거기에 또한 우리가 끊임없이 마주 치는 다른 문제 이봐,이게 내 랩탑이나 내 시스템에서 작동하고있어 전 개발자 작업 (DevOps) 또는 클라우드 운영 (CloudOps) 또는 다른 분석 담당자 이제 실행하는 것이 문제입니다

그것은 내 시스템에서 잘 작동합니다 컨테이너가이를 크게 해결합니다 그러나 우리는 분석 전문가를 상향 조정하거나 상향 조정해야했습니다 소프트웨어 나 프로그래밍 뿐만이 아니라 배경이지만 심오한 엔지니어링과 물리학, 및 도메인 전문 지식 배경 그래서 우리가 얼마나 오래 걸렸는지 잠깐 확인했습니다

온보드 누군가에게 대개 사람의 배경에 따라, 일주일에서 수개월이 걸릴 것입니다 빌딩에 생산적이되도록 누군가에게 온보드하기 새로운 분석을 제작 시스템에 적용 할 수 있습니다 그리고 그것은 우리 앞에 CICD 파이프 라인이 있기 전에 컨테이너 앞에있었습니다 클라우드 또는 누군가의 노트북 모두에서 그것은 같은 방식으로 다소 비춰졌다

따라서 업 스케일링뿐만 아니라 다운 스케일링 전반적인 시스템을 어떻게 다운 스케일합니까? 누군가가 소규모 생태계에서 일할 수 있도록 그런 다음 다시 전체 시스템으로 밀어 넣으시겠습니까? 그래서 우리는 1 주일에서 2 주일간 어디든지 데려가는 사람에게서갔습니다 몇 달에서 몇 시간 그리고 이것들은 모두 다양한 사람들에게 테스트되었습니다 컨테이너에 대한 많은 전문 지식과 컨테이너에 대한 전문 지식이 없습니다

사실, 우리에게는 전문 지식이 전혀없는 사람들이있었습니다 아직도 컨테이너 또는 프로그래밍 첫날에 프로덕션 코드를 실행하기 위해 실행되었습니다 다른 하나는 우리가 통과했다 고통스러운 분기 별 출시 자정 전에 앉아서 신경을 쓰고 있었어

우리가 이미 우리의 지도력을 약속했기 때문에 오늘 석방 될 것입니다 그리고 그 전날에 잘 작동하고 있었던 것이 었습니다 또는 심지어 아침에, 단 10 분 휴식 것입니다 생산하기 전에 우리는 모두 거기에있었습니다 그리고 고통스럽고 고통스러운 분기 별 출간이 오늘에 이르렀습니다

우리는 실제로 연속 출시를 할 수 있습니다 분석을 작성한 사람, 필연적으로 전반적인 작업 역학을 이해해야한다 대규모 엔터프라이즈 소프트웨어 시스템의 경우, 뭔가를 밀고, 그것을 생산으로 만들고, 실제로 제작에 들어가는 것이 좋습니다 그리고 우리는 특정한 경우에 그렇게 할 수 있습니다 물론, 나는 모든 경우에 그렇게한다고 주장하지는 않습니다

그러나 분석 담당자를위한 기능 코드를 작성하고 프로덕션으로 배송 할 동일한 코드 우리가 이것의 척도를 가지고 있다면 근본입니다 이제 데모를 빨리 실행 해 보겠습니다 데모를 통해 실행할 것입니다 오히려 신속하게 몇 천 개의 모델을 만들려고 노력하고 있습니다 GCP에 이를 가능하게하기 위해 우리는 거의 모든 서비스를 구축했습니다

클라우드 기본 Google 서비스 사용 우리는 또한 우리가 가지고있는 내부 도구를 가지고 있습니다 모든 사람들을위한 분석 엔진으로 사용 Applied AI라는 고객을위한 제품의 우리는 GCP 핵심 서비스에서 Applied AI를 실행하고 있습니다 따라서 우리의 핵심 운영이지만 GCP 핵심 서비스를 사용합니다 그래서 우리는 Kubernetes 엔진을 사용하고 있습니다 우리는 모든 스토리지 서비스를 사용하고 있습니다

Google이 기본적으로 제공하는 것으로, 모든 주변을 포함합니다 보안, DNS, 클라우드 DNS 및 방화벽 규칙 및 모든 기능을 제공합니다 승인 바라건대 데모 신이 우리를 웃고 있습니다 이것이 작동하는지 봅시다

승인 전환 할 수 있을까요? 좋아, 좋아 그럼 여기서 뭘 볼 건지, Kubernetes 엔진이 있다는 것을 알 수 있습니다 우리는 상당히 큰 클러스터를 실행합니다 이제는 브라우저 기반 인터페이스 우리는 시민 데이터 과학자들을 위해 오늘 시연하지 않을 것이며, 또는 주제 전문가가 많은 모델을 작성하고 구축 할 수 있습니다

그러나 우리는보다 진보 된 사람이 CLI를 가지고 있습니다 매우 빠르게 모델을 많이 만들 수 있습니다 따라서 왼쪽의 CLI를 실행하면, 당신은 내가 많은 것을 할 수 있다는 것을 알 수 있습니다 나는 달리고, 안으로 로그인하고, 약간 모형을 달릴 수있다 모델의 상태를 확인할 수 있습니다

그러나 우리는 또한 인도를 할 수 있습니다 그리고 가이드 빌드는 필자가 꼭 필요한 것은 아닙니다 내 문제에 대해 많이 알고있어 나는 누군가에 의해 데이터 세트를 받았다 나는 그 데이터 세트로 많은 모델을 만들 필요가있다

모델을 구축하는 데 필요한 모델을 반드시 알 필요는 없습니다 어떤 기술이 유용 할 지 모르겠습니다 거기에 많은 누락 된 데이터가 있는지 나는 모른다 나는 그 데이터 세트에 대해 많은 정보를 얻지 못했다 그리고 이것은 매우 일반적인 사용 사례입니다

누군가가 데이터 세트로 버려진 곳 가서 무언가를해라 또는 결과가있을 수도 있지만 그렇지 않을 수도 있습니다 결과를 얻는 방법을 말하십시오 따라서 주제 전문가 시간의 60 % ~ 80 % 이 데이터 세트로 무엇을해야하는지 알아보기 시작합니다 그래서 이것은 어떻게 당신을 알아 내려고 노력하고 있습니다

어쩌면 20 %에서 30 %까지 시간의 60 %에서 80 %까지 줄일 수 있습니다 당신의 시간의 80 %를 그냥 쓸어 버리는 것보다 어두운 데에서 이제 CLI에 이미 로그인했습니다 그리고 제가 실제 Kubernetes 엔진에 들어가면 – 평소처럼 토큰이 만료되었습니다 내 토큰을 받았는지 확인해 줘

승인 그래서 Kubernetes는 그래프 탭을 확장했습니다 어떤 서비스를 실행하고 있는지 알려줄 것입니다 실행중인 복제본 수, 실행중인 보드, 실행중인 태스크 우리는 그들 없이는 우리가 정말로 들어가서 디버깅하는 방법을 알아낼 수 없었습니다

디버깅하는 방법뿐만 아니라 실제로 규모는 무엇입니까? 우리는 달리고있다 나올 숫자와 너는 가야 해 로그를 보면 놀랍게도 우리가 이것과 같은 것을보고 가서 답을 얻으려면 빨리 이제는 이미 실행중인 모든 서비스입니다 이들은 아키텍처에서 본 핵심 서비스입니다

다이어그램,이 응용 프로그램은 AI 실행 및 대기 중일뿐입니다 누군가 명령을 내릴 수 있습니다 그리고이 큰 꽃에서 당신이 여기에서 보는 것은 무엇입니까? 우리의 모든 업무 서비스입니다 그래서 우리는 50 개의 서비스를 실행 중이고 어떤 작업도 기다리고 있습니다 안으로

내가 여기 들어가서 AI가 빌드를 인도했다고 말하면, 나는 로컬 파일을 사용하고, 그리고 모든 다른 조합 중에서 사용할 수있는 입력 중 모델이있는 상위 10 개의 입력을 사용하십시오 자동 선택이 가장 중요하다 첫 번째 패스로 따라서이 파일 인 데이터 파일에는 1,000 개의 변수가 있습니다 그것들은 모두 서로 연관되어 있습니다

그것은 실제 데이터 세트입니다 그리고 데이터 과학자 또는 주제 전문가로서, 들어가서 어떤 변수를 찾을 수 있습니까? 모델을 작성하고 구현하기 전에 중요합니다 내가 원하는 것은 가능한 모든 모델을 빌드하는 것입니다 가능한 모든 변수 조합에 대해, 모델 당 처음 10 개의 중요한 변수를 선택합니다 그것이이 명령이하는 일입니다

Enter를 누르십시오 그것이하는 일은 그것이 진행되고 있다는 것입니다 이 특별한 경우에는 200 개의 변수가 있습니다 그것은 1,056 총 모델을 실행 중입니다 그리고 당신은 그것이 모든 작업 실행을 밀고있는 것을 볼 수 있습니다

Kubernetes 엔진에 그리고 Kubernetes 엔진 이 모든 작업이 시작되면 다시 전송됩니다 그러면 이미 그래프가 업데이트되고 있음을 알 수 있습니다 사실 여기 화면에서 더 빠릅니다 그러나오고있는 색상 노드들 각각은, 그 노드들 각각은 실제 모델이다

그것들은 위로 회전하고있어 그리고 우리가 말하고있는 동안, 우리는 이미 693 모델을 회전 시켰고, 우리가 말하는대로 업데이트됩니다 GK에 나가고 그것을 살인하는 측면에서 여기 회의 Wi-Fi의 그래서 우리가 말하면서, 우리는 방금 데이터 세트를 가져 왔습니다 실제로 거기에 무엇이 있는지 모른 채 그것을 밀어 냈습니다 시스템에 가서 알아 내려고 얼마나 많은 모델을 만들 수 있습니까? 실제로 입력의 조합은 무엇입니까? 그 모델 각각에 대해 작업합니까? 가서 빌드하고, 나에게 돌아와서 나에게 보여줘

그리고이 모든 것은 시스템에서 실시간으로 실행됩니다 그것은 Google Cloud에 게시됩니다 이 특별한 경우에는 지금 이미 약 730 개의 모델을 완성했다 그리고 당신이 돌아 오는 응답 화면에 라이브가 실행 중입니다 이 모든 용기들이 뿌려지면서 Kubernetes 엔진 내부 모든 서로 다른 서버 간의 연결 클라우드에서 실행 중입니다

이제 우리는 다시 – 그래서 여기서 일어난 일은이 데이터 세트입니다 이 데이터 세트를 가져온 경우 (이 경우 200) 상관 관계의 조합과 함께 다양한 변수 그들 사이에 – 여기 보이는 음모, 각 색상은 하나의 변수 및 다른 변수 시스템이 들어가서 상관 관계를 살펴 보았습니다 데이터 세트에서 다른 발견 적 방법을 많이 보았습니다 다양한 모델을 만들어 냈습니다

다른 기술의, 모델을 실행, 그리고 당신을위한 대답으로 돌아 왔습니다 이제 실행 된 노드 규모를 실행하십시오 몇 분 안에, 4,800 개의 CPU를 실행하는 50 개의 노드 약 30 테라 바이트의 RAM이 있습니다 네, 방금 5 분 동안 돌렸 잖아요 돌아왔다

하지만 엔지니어를 구한 지 2 주 정도 걸릴 수도 있습니다 그리고 그들은 실제로 어떤 일을 할 수 있습니까? 가서 질문을하고 질문을 던지려면 더 의미가 있습니다 알아내는 것보다는 대답하는 것 실제로이 데이터 세트는 무엇을 말하고있는 것입니까? 또한 내부적으로 많은 워크 플로가 구축되어 있습니다 우리가 분석을 가속화하러 갈 수 있도록 내부적으로도 가능합니다

이제 우리는 Wi-Fi가 아닌 실제로이 작업을 수행했습니다 실제로 [부적절한] 적절한 인터넷 연결 30,000 개의 모델을 실시간으로 실행하여로드 할 수 있습니다 내가 방금 당신에게 보여 줬던 Kubernetes 집단은 약 60 % 이용 승인

그래프는 실제로 그렇게 보입니다 약 2, 1, 2 분 안에 생방송되었습니다 [INAUDIBLE]의 모든 30,000 모델을 회전시킵니다 이것에 대한 좋은 점은 실제로 30,000 명이 모두 성공하는 것은 아닙니다 30,000 개의 모델을 통과 시키려 할 때, 이 크기의 클러스터, 그 많은 것들 자동으로 재시작해야합니다

GKE를 사용하면 클라우드 기본 서비스가 자동으로 실행됩니다 재시작은 우리를 대단히 도움이됩니다 우리는 인프라에 대해 전혀 염려 할 필요가 없었습니다 이 특별한 경우에 그래서 저는 두 가지 생각만으로 여러분을 떠나고 싶습니다

하나는 실험을하지 않는 것입니다 우리는 이것이 추상적 인 사고 일 수 있다고 실제로 말하지는 않습니다 앞으로 5 년 안에 제공 될 예정입니다 또는 그런 것 우리는 오늘날 업계가 이것을 사용하고 있다고 말하고 있습니다

이러한 응용 프로그램은 전통적인 심층 학습 응용 프로그램처럼 보입니다 전통적인 클라우드 애플리케이션이지만 이러한 많은 애플리케이션 우리가 오늘 말하는 것처럼 구름으로 움직이고 있습니다 그리고 많은 산업체가 실제로 그것을 채택하고 있습니다 반드시 저항하는 것은 아닙니다 그리고 도전은 여전히 ​​존재합니다

물론 가장 큰 도전은 접근성입니다 그래서 모든 사람들은 데이터가 많다고 말합니다 하지만 들어가서 말하면, 너는 할 수 있니? 나에게 데이터 세트를 주면 6이된다 개월에서 1 년 운동으로 내부적으로, 그들은 숫자를 가야만하기 때문에 데이터 세트에 액세스 할 수있는 데이터를 가져 오는 방법을 설명합니다 그리고 오늘 가장 큰 장애물 데이터 세트 나 재능이 아닙니다

그것은 정말로 사고 방식을 바꾸는 것입니다 모두가 웹 로그 분석을 통해 무엇인가를하고 싶어합니다 모두는 구름으로 무엇인가하고 싶어합니다 모두는 그것이 그 (것)들에게 귀중 할 것이라는 점을 이해한다 그 가치를 상황화하는 방법에 관한 것입니다

그들의 실제 맥락으로 그것은 오늘날 가장 큰 장애물입니다 그래서 나는 너에게 그걸 맡길거야 고마워 고맙습니다

고맙습니다 [음악 재생]