Data analytics tutorial video: Financial Accounting – Gross profit analysis

판매, 비용 및 총 이익 분석을 다루는이 데이터 분석 자습서에 오신 것을 환영합니다 Excel의 피벗 테이블 및 차트 사용 이 액티비티에서는 가상의 회사 인 Cabinet에 대한 판매 및 비용 데이터 세트를 사용합니다

액세서리 회사 (CAC) 판매 및 비용 데이터는 2014 – 2018에 해당됩니다 이 자습서의 경우에만 36 개의 작은 데이터 세트를 사용합니다 실제 활동의 경우 전체 데이터 세트를 사용하므로 활동 요구 사항은 다를 수 있지만 프로세스는 유사합니다 피벗 테이블 및 피벗 차트에 대한이 자습서에서는 Office 사용을 보여줍니다

365 Excel for Windows 다른 버전의 Excel은 약간 다를 수 있습니다 또한 동일한 일을 성취 할 수있는 여러 가지 방법이있을 수 있습니다 여기 Office 365 버전이 업데이트되었는지 확인하십시오

너는 똑같은 방식으로 보지 못할 수도있어 최근에 업데이트하지 않았습니다 데이터 집합이 포함 된 Excel 통합 문서를 열어이 작업을 시작합니다 일반적으로이 활동의 ​​각 요구 사항 (요구 사항 1 제외) 새 워크 시트에 새 피벗 테이블을 만듭니다 각각의 새 워크 시트의 이름을 "Req 2", "Req 3"등으로 지정하십시오

지시가있는 경우 각 피벗 테이블 또는 피벗 차트에서 달러 금액을 소수 자릿수가 두 자리 인 회계 형식 요구 사항 1은 "데이터 워크 시트에서 판매 수익을 계산하는 세 개의 열을 만들고, 비용, 매출 총 이익을 계산할 수 있습니다 " 첫 번째 요구 사항의 첫 번째 단계는 데이터 워크 시트에서 Cell K2로 이동하는 것입니다 열 판매 수익 아래의 셀입니다 판매 수익 공식을 입력하십시오

이는 = h2 * j2입니다 셀을 입력하는 대신 가리 킵니다 두 번째 단계에서는 열 제목 총 비용 바로 아래에있는 셀 L2를 클릭합니다 총 비용에 대한 수식을 입력하십시오 = i2 * j2입니다

다시 말하지만, 이름을 입력하는 것보다는 셀을 가리 키십시오 세 번째 열의 경우 열 머리글 바로 아래에있는 셀 M2를 클릭합니다 총 이익의 매출 총계에서 총비용을 뺀 총 이윤 또는 = K2의 수식을 입력하십시오 L2 (다시 말하지만, 입력하지 말고 세포를 가리킨다

그런 식으로 오류가 발생했습니다) 네 번째 단계에서는 다음 세 가지 수식을 선택하여 나머지 행에 복사합니다 세 개의 셀을 누른 다음 오른쪽 아래 모서리에있는 작은 상자를 두 번 클릭합니다 셀 M2 5 단계에서는 열을 선택한 다음 서식, 회계를 클릭하여 세 열의 서식을 지정합니다

소수 자릿수 2 자리 형식 3 개의 형식이 지정된 열을 데이터 워크 시트에 추가했습니다 요구 사항 2는 "각 영역에 대한 판매 수익을 보여주는 피벗 테이블 만들기 년 데이터 세트의 오류를 정정하십시오 피봇 차트를 삽입하여 판매 동향을 표시하십시오

" 첫 번째 단계는 데이터 워크 시트에서 데이터의 아무 곳이나 클릭하는 것입니다 그런 다음 리본에서 삽입을 클릭 한 다음 피벗 테이블을 클릭합니다 더 진행하기 전에 워크 시트 이름 탭을 마우스 오른쪽 단추로 클릭하고 이름을 "Req 2"로 바꿉니다 그러면 다른 피벗 테이블을 추적하는 데 도움이됩니다 그런데 피벗 테이블 필드 패널이 사라지면 다시 가져올 수 있습니다

생성 한 피벗 테이블의 아무 곳이나 클릭하십시오 다음 단계는 피벗 테이블 필드 패널에서 지역을 행 상자, 판매 수익 값 상자로 이동하고 날짜 상자를 열 상자로 이동합니다 # 5 : 지금 피벗 테이블을 검사하십시오 오류를 찾으십시오 여기에서 우리는 Central이 데이터 세트에 적어도 한 번 Centrals로 입력되었음을 알 수 있습니다

큰 할당 된 데이터 세트를 작업 할 때 다른 오류가있을 수 있지만 같은 오류가있을 수 있습니다 육안 검사 기술은 오류를 찾기 위해 노력할 것입니다 이제 다시 데이터 워크 시트로 전환하고 홈 리본에서 찾기 및 선택을 클릭하십시오 찾기 및 바꾸기를 선택하십시오 피벗 테이블에서 찾은 오류 항목을 입력하고 다음 찾기를 클릭하십시오

수정 된 철자로 바꾸십시오 피벗 테이블에서 찾은 각 오류에 대해이 프로세스를 수행하십시오 여기에 올바른 중부 지구 대신 단지 하나의 중부가 있습니다 7 단계의 경우 Req 2 워크 시트로 돌아갑니다 피벗 테이블의 데이터를 클릭하십시오

마우스 오른쪽 버튼을 클릭하고 새로 고침을 선택하십시오 이 프로세스는 수정 한 오류가 더 이상 피봇 테이블을 업데이트하지 않아야합니다 피벗 테이블에 다음으로 피벗 테이블의 데이터 서식을 지정합니다 피벗 테이블 데이터를 선택하고 마우스 오른쪽 버튼을 클릭하여 값 필드 설정을 선택합니다

숫자 서식을 선택한 다음 피벗 테이블 셀의 소수 자릿수 2 자리를 형식으로 지정하십시오 이제 우리는이 워크 시트에 피벗 차트를 삽입 할 것입니다 피벗 테이블 데이터를 선택하십시오 삽입 리본에서 피벗 차트를 클릭합니다 그런 다음 선 종류의 차트를 선택한 다음 확인을 클릭하십시오

이제 피벗 차트가 워크 시트에 나타납니다 그러나 데이터 행과 열을 전환해야합니다 행과 열을 전환하려면 차트를 마우스 오른쪽 단추로 클릭하고 데이터 선택을 클릭합니다 그런 다음 상자 맨 위에있는 행 / 열 전환 버튼을 클릭하십시오 이제 확인을 클릭하여 행과 열의 전환을 완료하십시오

피벗 테이블 행과 열이 이제 전환되었으며 피벗 차트도 변경되었습니다 데이터 요구 사항 3 "판매 수익, 비용 및 총액을 보여주는 피벗 테이블 만들기 매년 이익 매년 이익 잉여금에 미치는 영향은 무엇입니까? " 첫 번째 단계는 데이터 워크 시트에서 데이터의 아무 곳이나 클릭하는 것입니다 삽입 탭을 클릭 한 다음 피벗 테이블을 클릭하십시오

그런 다음 기본값을 승인하고 확인을 클릭하십시오 더 진행하기 전에 워크 시트 이름 탭을 마우스 오른쪽 단추로 클릭하고 이름을 Req 3로 바꿉니다 그러면 다양한 피벗 테이블을 추적하는 데 도움이됩니다 다음 단계에서는 PivotTable 필드 패널에서 Year를 Rows 상자로 드래그하십시오 판매 수익, 총비용 및 총 이익을 값 상자로 드래그하십시오

다음으로 피벗 테이블 데이터를 선택하십시오 마우스 오른쪽 버튼을 클릭하고 값 필드 설정을 선택하십시오 다음으로 Number Format을 클릭하십시오 소수 자릿수 2 자리로 회계 형식을 선택하십시오 매출액, 총비용 및 연간 매출 총 이익을 보여주는이 피벗 테이블이 이제는 끝마친

데이터 프로젝트의 요구 사항은 이익 잉여금에 대한 순 영향을 계산하도록 요청합니다 각각의 거래에서 총 이익은 이익 잉여금을 증가 시킨다는 것을 기억하십시오 요구 사항 4는 "각 회사에서 가장 수익성있는 브랜드를 보여주는 피벗 테이블 만들기 올해는 총 이익으로 측정됩니다 " 첫 번째 단계는 데이터 워크 시트에서 데이터의 아무 곳이나 클릭하는 것입니다 삽입 탭을 클릭 한 다음 피벗 테이블을 클릭하십시오 기본값을 수락하고 OK를 클릭하십시오

더 진행하기 전에 워크 시트 이름 탭을 마우스 오른쪽 단추로 클릭하고 이름을 Req 4로 바꿉니다 그러면 피벗 테이블을 추적하는 데 도움이됩니다 다음 단계에서 피벗 테이블 필드에서 연도를 열 상자로 끌어옵니다 브랜드 및 컬렉션을 행 상자로 드래그하십시오 총 이익을 값 상자로 드래그하십시오

그런 다음 피벗 테이블 데이터를 선택하고 마우스 오른쪽 단추를 클릭 한 다음 값 필드 설정, 숫자 형식, 소수 자릿수 2 자리를 사용하여 회계 형식을 지정하십시오 이제 피벗 테이블이 완료되었습니다 그것은 매년 가장 수익성있는 브랜드를 보여줍니다 요건 5는 "각 브랜드 내에서 2018 년 가장 수익성이 높은 컬렉션은 무엇인가? 총 이익 비율로 측정했을 때? 각 브랜드의 수익성이 가장 낮은 컬렉션? 필드 연도를 사용하여 2018 년 만 포함하도록 데이터를 필터링하십시오 총 이익을 계산하려면 피벗 테이블에 계산 된 필드를 추가해야합니다

백분율 각 브랜드 내에서 가장 큰 것에서부터 총 이익 비율로 컬렉션을 정렬합니다 가장 작은 것 결과를 해석하십시오 " 첫 번째 단계는 데이터 워크 시트에서 데이터의 아무 곳이나 클릭하는 것입니다

그런 다음 삽입을 클릭 한 다음 피벗 테이블을 클릭하십시오 그런 다음 피벗 테이블의 기본값을 적용하고 확인을 클릭합니다 더 진행하기 전에 워크 시트 이름 탭을 마우스 오른쪽 단추로 클릭하고 이름을 Req 5로 바꿉니다 워크 시트의 번호를 지정하면 피벗 테이블을 추적하는 데 도움이됩니다 그런 다음 피벗 테이블 필드에서 연도를 필터 상자로 끌어옵니다

브랜드 및 컬렉션을 행 상자로 드래그하십시오 마지막으로 매출 총 이익을 값 상자로 끌어옵니다 그런 다음 분석 리본에서 필드, 항목 및 집합을 클릭하여 계산 된 필드를 추가합니다 다음 단계에서는 grossprofitpct의 이름과 수식을 사용하여 계산 된 필드를 삽입하십시오 of = 매출 총 이익 / 매출액 필드를 가리킨 다음 입력하지 말고 삽입을 클릭하십시오

그런 다음 grossprofitpct 열에서 데이터를 선택하고 마우스 오른쪽 단추를 클릭하십시오 값 필드 설정, 숫자 형식 및 형식을 백분율로 선택하십시오 다음 단계에서 연도 필터 상자에서 2018을 연도로 선택하여 2018 만 표시합니다 데이터 컬렉션 수준에서 피벗 테이블의 셀을 클릭합니다

여기에서 셀 C5를 클릭합니다 그런 다음 마우스 오른쪽 단추를 클릭하고 정렬을 선택한 다음 가장 큰 것부터 가장 작은 것까지 정렬을 선택합니다 피벗 테이블이 완료되었습니다 매출 이익 기준으로 가장 수익성이 높고 수익성이 낮은 브랜드를 볼 수 있습니다 요구 사항 6에는 질문에 대답하기 위해 피벗 테이블 만들기가 표시됩니다

매출 총 이익 비율로 측정 한 2018 년 수익이 가장 높습니까? 이 피벗 테이블에 2018의 판매 만 포함하려면 필터를 사용하십시오 다시 말하면 피벗 테이블에 계산 된 필드를 추가하여 총계를 계산해야합니다 이익 비율 총 이익 비율에 따라 지역을 가장 큰 것에서 가장 작은 것으로 정렬하십시오 첫 번째 단계는 데이터 워크 시트에서 데이터의 아무 곳이나 클릭하는 것입니다 삽입 리본에서 피벗 테이블을 클릭하고 기본값을 사용하여 새 피벗을 삽입합니다

통합 문서의 표 더 진행하기 전에 워크 시트 이름 탭을 마우스 오른쪽 단추로 클릭하고 이름을 Req 6로 바꿉니다 그러면 피벗 테이블을 추적하는 데 도움이됩니다 그런 다음 피벗 테이블 필드에서 연도를 필터 상자로 끌어옵니다 영역을 행 상자로 드래그하십시오

마지막으로, 총 이익과 총 이익을 가치 상자로 끌어옵니다 grossprofitpct 열의 합계에서 데이터를 선택하고 마우스 오른쪽 단추로 클릭 한 다음 값 필드를 선택하십시오 설정 그런 다음 값 필드 설정에서 숫자 서식 상자를 선택하십시오 소수점 이하 2 자리로 백분율로 데이터 서식을 지정하고 확인을 클릭하십시오

워크 시트의 오른쪽 상단 모서리에있는 필터 상자에서 2018을 연도로 선택하십시오 이 작은 데이터 세트에서는 여기에서 가장 큰 데이터를 가장 작은 데이터로 정렬합니다 이미 그 순서대로 대용량 데이터 세트에서 가장 큰 것부터 가장 작은 것까지 정렬하면 차이가 있습니다 그게 전부 야

총 수익률로 측정 한 2018 년 가장 수익이 높은 지역을 볼 수 있습니다 이것으로 매출, 비용 및 총 이익 분석을 다루는 데이터 분석 자습서를 마칩니다 Excel의 피벗 테이블 및 차트 사용 보고 주셔서 감사합니다!

Introduction to Advanced Statistical Techniques and Its Applications | Data Analysis -Great Learning

여러분 안녕하세요 고급 통계 모듈에 오신 것을 환영합니다

이 모듈에서, 우리는 분산 분석, 선형 회귀 분석 분석, 주성분 분석 요인 분석 이 기술들 그들은 analytics 산업에서 광대하게 적용됩니다 그것들은 분석 산업의 기반이됩니다 몇 가지 예를 들어 보겠습니다 간단한 예 그게 마케팅이야

매니저는 고객에 할인은 판매를 증가하고 있습니다 아닙니다 예를 들어 보겠습니다 10 % 할인 수준이 좋습니다 또는 20 % 할인 수준이 좋거나 30 % 할인 수준입니다 좋은가요? 다음 중 어느 수준으로 증가시킬 것인가? 판매

판매에 어떤 영향을 미칩니 까? 이 질문에 어떻게 대답합니까? 그래서, 아마도 당신은 도구, 분산 분석이라고합니다 마찬가지로, 당신이 이해하고 싶다면 어떤 채널이 당신에게 가장 높은 점수를 주는지 증가의 관점에서 수익 너는 광고하고 있는다고해라 TV, 신문, 디지털을 통한 제품 채널 그리고 어떤 채널을 이해하고 싶습니까? 너에게 더 많은 것을주고있다

수익 그럼 너 아마 보았을거야 ANOVA와 같은 도구의 혼합 회귀 분석 예를 들어 당신이 원하는 것을 말하십시오 비율 스포츠 선수

예를 들어 평가하고 싶다고합시다 IPL 타자 또는 IPL 중계자 예를 들어 타자의 경우에 대해 말하십시오 너는 생각할 수있다 귀뚜라미의 점에서의 물건, 예를 들면 얼마나 타자 파업 률, 50 대 수 100의 수

4의 숫자, 6의 수 이 모든 것이 데이터를 구성합니다 이 데이터가 있으면 지금해야합니다 타자를 어떻게 평가합니까? 그런 시나리오에서 당신은 다음과 같은 특정 도구 주요 구성 요소 분석 이 특별한 도구 에서 광범위하게 적용된다

등급 도시, 그들의 생활 조건, 또는 인간 개발 지표 이렇게 많은 다른 분야 이 특정 기술을 적용 할 수 있습니다 하지만 네가 스포츠 분석에 대해 이야기하고 싶습니다 선수를 평가하고 싶다 등급 의미 선수들에게 더 많은 돈

그래, 그래서 스포츠 분석이 관심있는 분야라면 너는 신청할 수있다 이 모든 개념들도 거기에 있습니다 괜찮아 자, 예를 들어 당신은 사람들이 내 브랜드를 어떻게 인식하고 있는지 알고 싶습니다 괜찮아

귀하의 브랜드는 특정 속성 및 사람들 브랜드 평점 그 속성은 또한 아주 중요한 것입니다 예를 들어 보겠습니다 몇 가지가있는 자동차 산업 자동차 호화로운에서 시작 자동차 보통의 자동차 종류 자동차도 생각할 수 있습니다 말하자면 가족 차는 전형적으로 구성한다, 너 뭐라고 말하고, 안전하고, 경제, 낮은 정비, 신뢰할 수 있습니다

괜찮아 이것들은 우리가 원하는 특성들입니다 가족 용 자동차에 대해 설명합니다 그럼 이제 너는 어때? 주어진 브랜드가 같은 속성 집합 낮은 유지, 경제, 신뢰성, 운동가 다운, 옥외, 거친, 호화로운 브랜드가 정확히 어디에있는가 고객의 마음 속에 자리 잡고 있습니다

브랜드가 어떻게 인식되고 있는지 알고 싶다면 당신은 기술을 배우고 싶다 요인 분석 괜찮아, 그래서이 특별한 모듈에 우리는 당신을 도울 기술을 다루게 될 것입니다에서 다른 사람들보다 약간의 우위를 점합니다 그래서 이것을 적용하면 이 기술들에 당신의 기술을 보여주십시오 업계에서 당신은 분명히 종류가있다 나머지는

우리는 심지어 재무 분야의 예 신청 방법 마케팅 분야에서 이러한 개념을 어떻게 적용 할 것인가? 범죄 분야에서 어떻게 이러한 개념을 적용 할 수 있습니까? 범죄가 다른 범죄가되고 있음을 기억하십시오 분석을위한 잠재력이 높은 산업 괜찮아 보건 산업 분야에서 어떻게 이러한 개념을 적용 할 것인가? 그래서, 이러한 특정 도구는 산업 또는 특정 분야이지만 광범위하게 적용됩니다

어디에나 재무 예를 들어 보겠습니다 금융 예를 들어보고 싶은 경우 1 년 기계 장치 금리, 2 년 기계 장치 금리, 3 년 계좌, 4 년 계좌 시장 상대적인 그 이자율은 움직이고 있습니다

어느 악기가 함께 움직이는 지 어느 악기가 함께 움직이지 않는지 또는 금리에 대해 갖고 싶은 생각이나 이 계좌에 대한 이자율 네가하는 일은 너를 달리는거야 모델은 주성분 분석으로 불린다

괜찮아 그래서 어디에서나 이 기법들이 적용되고 때때로 이 모델들의 출력은 다음과 같이 취해진 다 다른 모델과 동일합니다 예를 들어 다른 모델의 경우 요소 분석의 경우 구성 요소 분석 당신은 주 구성 요소 점수라고 불리는 출력을 얻습니다 요인 점수

어느 것을 사용 하는가? 에서 클러스터링 분석 또는 회귀 분석에서 다시 등등

A GCP developer’s guide to building real-time data analysis pipelines (Google Cloud Next ’17)

[음악 재생] 라파엘 페르난데스 : 그렇습니다 고맙습니다

나는 라파엘 페르난데즈입니다 SLAVA CHERNYAK : 저는 Slava Chernyak입니다 RAFAEL FERNANDEZ : 우리는 Cloud Dataflow, 우리는 오늘 이곳에 와서 당신에게 이야기하게되어 매우 기쁩니다 데모 중 하나에서 발생한 일에 대해 조금 더 기조 연설에서 오늘 아침에 본 것을 특히, 택시 데이터 데모

그래서 우리는 그것에 대해 자세히 살펴볼 것입니다 우리는 연속 이벤트 처리에 초점을 맞출 것입니다 Cloud Dataflow를 사용하는 데모의 측면 우리는 GCP로서 당신의 모습을 면밀히 살펴볼 것입니다 개발자, 우리가 가지고있는 다양한 서비스를 구성 할 수 있습니다

플랫폼에서 모든 다양한 보완 데이터 처리 패턴 최신 응용 프로그램에 필요합니다 우리는 또한 약간의 시간을 강조 할 것이다 Cloud Dataflow 서비스의 매우 강력한 기능인 연속 계산을 업데이트 할 수 있습니다 실시간 오늘 우리가 이야기 할 서비스 Cloud Pub / Sub, Cloud Dataflow 및 BigQuery입니다

그들은 모두 완벽하게 관리되며, 모두 확장 가능하며, 그리고 다른 일들을하십시오 Cloud Pub / Sub는 Pub / Sub 게시 및 구독 서비스입니다 그것은 전 세계에 걸쳐 이루어지기 때문에 최소한 한 번 배달을 보장합니다 Cloud Dataflow는 완벽하게 관리되는 데이터 처리 서비스입니다 프로그램을 실행할 수있게 해주는 데이터를 일괄 처리 또는 스트리밍 모드로 평가합니다

그것은 매우 강력한 프로그래밍 모델과 함께 제공됩니다, 개발자에게 수년간 집중 한 결과입니다 Google에서의 경험 – 우리는 당신이 그렇게 생각한다고 생각합니다 그리고이 프로그래밍 모델이하는 일 더 높은 수준의 추상화를 유지할 수 있습니다 데이터 변환, 분산 시스템으로 이동하는 대신 수준과 그 모든 복잡한 마지막으로, BigQuery는 완전히 관리됩니다

분석을위한 페타 바이트 규모의 저비용 데이터웨어 하우스 데이터 분석가들에게 인기가 있습니다 우리가 여기서하고 싶은 것은 우리가 원하는 것입니다 원격 측정 데이터의 실시간 스트림을 사용하는 방법 그것은 뉴욕시 지역의 택시에서 오는 것이고, 이 데이터를위한 일련의 데이터 경로를 만들고 싶습니다 우리는 그것을 처리 할 것이고 우리는 서로 다른 경험을 할 수 있습니다 이러한 경험 중 하나는 실시간 시각화 일 수 있습니다

이 데이터는 뉴욕 메트로 지역에서 발생합니다 당신이 상상할 수있는 것처럼 우리는 Cloud Pub / Sub에 의존하게 될 것입니다 이러한 메시지를 전달하려면 이 신청서에 직접 청구하는 것이 현명한 선택이 아닙니다 클라이언트에서 당신의 고객, 하나의 머신이 있다면 이 데이터를 표시 할 책임이있다 이 모든 계산을 수행하면, 당신은 그 경험으로 끝낼 것입니다

이게 많이 생겼어 기본적으로 배달되지 않은 메시지 대기열이 늘어납니다 그것은 아마도 당신이 활발한지도에서 원하는 것이 아니며, 또는 활발한 전시에서 귀하는이 데이터를 계속 처리 할 것이며, 하지만 당신이 얻는 결과는 활기차고 너는 실제로 뒤쳐져있다 그래서 이것은 우리가이 부분을 위해 필요하다는 것을 암시합니다 우리의 가공, 다른 전략 추가로 다른 요구 사항이있을 수 있습니다 네가 상대하고 있기 때문에 생기 넘치다

하루가 끝나면 돈이 생기는 데이터 따라서 정확성, 완전성, 신뢰성, 확장 성, 그리고 성능은 때로는 내장되어 있습니다 여기에서 데이터를 처리합니다 우리는 그들을 존경해야합니다 우리는 또한 생기의이 요구 사항을 가지고 있습니다

이는 지속적인 이벤트 처리를 제안하며, 우리가하려고하는 또 다른 일 우리는 함께 데이터를 보관할 것인가, 추가 변환을 위해 몇 가지 변환을 포함합니다 데이터를 저장할 수있는 시스템이 있으므로 아주 좋은 경제적 인 비율로 우리는 모든 것을 보관할 수 있습니다 애널리스트가 나중에 공부하고보고 싶어 그것들에 덧붙여 좀 더 통찰력을 끌어 내라 너는 살아있는거야 이러한 유형의 활동에서 흔히 볼 수있는 또 다른 사항 귀하의 응용 프로그램 cc 관리에주의를 기울이고 있습니다 – 업데이트를 조정하는 방법은 무엇입니까? 그래서 우리는 그것에 대해서 조금 이야기 할 것입니다

하나의 구체적인 예부터 시작하겠습니다 셀 수 있습니다 슬라바, 가져가 SLAVA CHERNYAK : 고마워, Rafael 그럼 우리 택시 데이터로 무엇을하고 싶은지 이야기 해 봅시다

택시 텔레 메 트리가 도착하고 이미 우리가 그것을 우리가 우리에게 우리 비주얼 라이저의 단일 기계에서 처리 할 수 ​​있습니다 우리는 데이터 흐름을 사용하여 우리를 위해이 작업을 수행하는 파이프 라인 시간 그건 원시 택시 telemetry 걸릴 것입니다 그리고 그것을 변형 시간과 공간에서 응축 된 어떤 것으로, 그러나 우리는 이것을 다음과 같은 방식으로하고 싶습니다 우리 시각화를위한 충분한 정보를 보존한다 여전히 정확합니다

우리는 어떻게해야 하는지를 단계별로 설명 할 것입니다 원시 택시 원격 측정 데이터는 이렇게 보입니다 우리는 위도와 경도를 알고 있습니다 택시의 가장 최근 위치에 대한 타임 스탬프가 있습니다 다른 추가 메타 데이터가 있습니다

얼마나 많은 사람들이 택시에 있는지와 같은 또는 현재의 택시 미터가 읽은 값이 무엇인지 그렇다면이 데이터를 시간과 공간에서 응축하는 방법은 무엇입니까? 음, 우선 우리는 시간에 맞추어 데이터를 Window에 놓을 것입니다 내가 의미하는 바는 우리가 함께 그룹화 할 것이라는 것입니다 충분히 발생한 모든 포인트 시간이 서로 가깝다 간격 1에서 2 사이의 모든 점 – 여기 3 점을 함께 묶었습니다

해당 간격에서 발생한 모든 포인트 2 시부 터 3 시까 지 여기에 함께 그룹화됩니다 다음으로해야 할 일은 포인트를 그룹화하는 것입니다 공간에서 여기서도 우리가하는 일은 그룹핑을 지정하는 것입니다

위치에 따라 따라서 Window 내의 XY 포인트는 함께 그룹화됩니다 그것은 두 가지 점입니다 창 내의 KM 포인트는 함께 그룹화됩니다 1 대 2 창에 대한 1 점입니다 2 대 3 창에 대해 1 점을 표시합니다

마침내 우리가하는 일은 우리가 세는 것입니다 그러한 시간과 공간 그룹의 각 포인트 결과를 발표 할 준비가되었습니다 이것은 1 대 2 간격으로 x와 y에 대한 두 택시입니다 1 대 2 간격으로 킬로미터 당 하나의 택시, 2 대 3 간격으로 킬로미터 당 하나의 택시 그럼 여기서 실제로 성취 한 것은 무엇입니까? 그럼 우리는 논리적 변환의 집합을 설명했습니다

우리의 입력 데이터에서 우리를 데려 간다 우리의 원시 택시 원격 측정법 – 우리에게주세요 용어로 많이 응축 된 것 스트림의 볼륨의,하지만 여전히 운반 우리의 시각화를 위해 충분한 정보를 얻으십시오 좋아,이 논리적 인 설명은 어떻게 가져 가야합니까? 실제로이를 데이터 흐름 코드로 변환 하시겠습니까? 음, 우리는 이것을 좋아합니다 여기서 모든 코드 행은 정확히 일치합니다

우리가 우리의 데이터에 대해 설명한 논리적 변형에 이르기까지 변환 집합을 인코딩했습니다 원시 택시 텔레 메 트리에서 우리를 움직입니다 응축 된 볼륨 결과 스트림으로 또한 중요한 것은 이것이 실제 데이터 흐름 코드입니다 특히이 코드에는 클러스터 설정, 가상 컴퓨터 회전, 자원 배치, 충돌 또는 장애 복구 이 모든 것들이 Dataflow에 의해 처리되고 있습니다

그렇다면 Dataflow 프로그램은 무엇입니까? 데이터 흐름 프로그램은 논리적 변환을 설명합니다 데이터 수집 이러한 콜렉션은 PCollections라고 불리우며 제한 될 수 있습니다 또는 데이터 스트림의 경우에는 제한이 없습니다 변환은 PTransforms라고하며, 이러한 PC 컬렉션을 통해 실행될 수 있습니다

새로운 PC 컬렉션을 생성합니다 함께하면 우리가 쌓을 수 있습니다 데이터가 변환되는 방법을 설명하는 파이프 라인 입력에서 원하는 결과까지 이 파이프 라인을 살펴보십시오 Pub / Sub에서 읽은 PCollection으로 시작합니다 그리고 이것은 무한의 PCollection입니다

그 데이터가 영원히 계속 도착한다는 것을 의미합니다 그런 다음 PTransforms 시퀀스를 적용합니다 새로운 컬렉션, PC 컬렉션을 모든 시점에서 만듭니다 결과로 나온 PCollection은 Pub / Sub에 다시 기록됩니다 파이프 라인은 멈출 때까지 영원히 계속 실행되지만, 이 출력 PCollection 또한 제한이 없기 때문입니다

우리는 거기에 갈 그래서 우리는 Windowing, Mapping, Count와 같은 Transforms를 사용합니다 이리 이들은 Dataflow SDK에 내장되어 있습니다 당신은 추가 작업을하지 않아야했습니다

코드에서 호출하는 것 외의 다른 것들을 사용하십시오 CombinedRides 또는 CondensedRides와 같은 기타 변형 여기 당신이 쓸 수 있습니다 그래서 여기에 CondensedRide 변환을 보여 드리겠습니다 당신이 작성한 다음 데이터를 통해 병렬로 적용했습니다 근본적으로 그것이하는 것은 그것이 단지 함께 모이는 것입니다 서로 100 미터 이내에 발생한 포인트

따라서이 작업은 데이터를 통해 병렬로 실행됩니다 여기 스트리밍 방식으로 따라서 일단 우리가 파이프 라인을 작성하면, 우리가 그걸 어떻게 할까? Google Cloud Dataflow에서 실행할 수 있습니다 입력을 읽는 곳과 같은 기본적인 것들을 알려줍니다 출력을 쓰는 곳, 몇몇 매개 변수들 우리가 사용하기를 원하는 초기 근로자 수처럼, 그리고 우리는 그것을 실행합니다 실제로 실행하면 어떻게됩니까? 많은 것들이 취해지고 있습니다

우리를 위해 백 엔드의 관심 실행 그래프를 최적화합니다 실행이보다 효율적으로 이루어 지도록합니다 VM을 회전시키고 파이프 라인 코드를 준비합니다 이러한 VM에 대해서는 Pub / Sub를 사용하여 I / O를 관리하고, 그것은 내결함성을위한 지속적인 상태를 관리합니다

그런데 결함 허용에 대해 이야기 해 봅시다 VM이 충돌하거나 다른 종류의 오류가 발생하면 데이터 흐름 실행 엔진 당신을 위해 투명하게 다시 시작할 것입니다 계속 작업하고 데이터가 없습니다 체크 포인팅으로 인해 손실됩니다 파이프 라인 실행에 대한 영속 상태 따라서 데이터 흐름 보장은 항상 기계 충돌, 예외의 경우에도 보존되며, 다른 것

따라서이 파이프 라인이 실행되면 여기에 보이는 것과 같습니다 이것은 UI의 단순한 스냅 샷입니다 Andrea는 오늘 일찍 토크를했습니다 그녀는 UI에서 매우 깊이 들어갔다 그러나 이것은 이것이 어떻게 생겼는지의 스냅 사진입니다

이것은 파이프 라인에 대한 정보를 조금 더 제공합니다 파이프 라인 전체에 대해 알려줍니다 그것은 당신에게 단계에 대해 알려줍니다 처리중인 작업자 수, 메시지 수 파이프 라인의 각 단계에서 소비되고 있습니다 그리고 그런데, 주목한다면,이 파이프 라인 우리가 이전에 그린 논리적 다이어그램과 비슷합니다

따라서 변환에 대한 파이프 라인 중심의보기 데이터에서 수행중인 작업이이 UI에서 유지 관리됩니다 그래서 나는 한 가지에주의를 환기시키고 싶다 여기 구체적으로 말하면, 그건 네가 저기 저기에 스트림의 볼륨을 읽을 수 있습니다 초당 약 20,000 메시지에서 떨어졌습니다 시간과 공간을 줄인 후에 초당 약 2000 건의 메시지로 줄어 들었습니다

이는 원하는 결과 인 10 배 감소입니다 이제 우리는 우리의 시각화가를 지적 할 수 있습니다 우리는 같은 결과를 보았지만 이제는 계속 유지할 수 있습니다 우리는 Pub / Sub를 볼 때 우리가 계속 할 수 있다는 것을 압니다 스택 드라이버의 구독 통계 우리는 수주 잔고가 증가하지 않고 있음을 알 수 있습니다

여기에 초기 스파이크가 있음을 눈치 챘을 때 이것은 데이터 흐름이 돌고있을 때입니다 노동자들이 올라오고있는 동안 우리는 일부 수주 잔고를 짓고 있었고, 작업자가 스핀 업하여 처리를 시작할 때 그들은 그 백로 로그를 휘젓다 그 후로 계속 계속 지켜 왔습니다 이것은 작동중인 Dataflow 프로그램의 한 예입니다

나는 몇 가지 특정 측면에 대해 이야기하고 싶다 흥미로운 데이터 흐름 프로그래밍 API에 대해 설명합니다 특히 나는 이야기하고 싶다 무제한 데이터로 데이터 흐름을 처리하는 방법 우리의 택시 타는 데이터는 제한이 없습니다 이벤트는 영원히 계속 이어 지므로 일반적으로 데이터가 커질수록 우리는 그것을 깨뜨릴 수있다

처리를 위해 작은 덩어리로 전통적인 배치 시스템을 사용하는 경우 우리는 일일 Windows와 같은 것을 할 것입니다 그러나 이것은 정말로 값싼 방법입니다 무제한적인 데이터 처리 무제한 데이터의 어려움 중 하나 알 수없는 지연이있을 수 있으며 데이터가 표시 될 수 있습니다

주문 이 기록을 여기서보십시오 8시에 모두 일어난 기록이 있습니다 하나가 발생했고 즉시 시내로 배달되었습니다 하나가 발생하여 나중에 우리에게 배달되었습니다, 그러나 8시에 발생한이 녹색 기록 여기 6 시간 후에 우리 시냇가에 나타나지 않았다

그리고 그 이유가 누구인지 알 수 있습니다 그것은 여러 가지 이유 때문일 수 있습니다 어쩌면 사용자가 자신의 휴대 전화에서 이벤트가 발생했을 수 있습니다 그런 다음 비행기를 비행기 모드로 전환합니다 6 시간 동안 다시 켜지 않았다

어쩌면 서버가 추락하여 돌아 오지 않았을 수도 있습니다 온라인으로 6 시간 네트워크 지연이 있었을 지 모릅니다 해저 케이블이 어딘가에서 끊겼습니다 누가 알아

요점은 만약 우리가 스트림 처리를 작성한다면 우리는 이러한 지연을 처리 할 수 ​​있어야합니다 네가하는 일에 따라 이러한 지연을 처리하기위한 전략도 다릅니다 일종의 요소 변환을 수행하고 있다면, 엘리먼트 – 와이즈 변환은 당신이 상관하지 않을 수도있다 한 번에 요소를 처리하는 경우 그 요소가 언제 생겼는지 상관하지 않습니다 또는 해당 요소의 컨텍스트를 사용하면이 방법이 유용 할 수 있습니다

네가 원한다면 상황이 더 까다로워 질거야 어떤 종류의 그룹화 또는 집계를 수행합니다 따라서 한 가지 확실한 전략은 Processing Time Windows를 사용하는 것입니다 따라서 스트림과 처리 시간을 줄이고, 그게 무슨 뜻이야? 시계가 틱 할 때마다 1 시간 쯤에 당신은 당신의 시내에 경계를 그립니다 당신이 가진 것을 처리합니다

음, 이해하기 쉽습니다 하지만 이것은 아마도 당신이 원하는 것을주지 않을 것입니다 요소가 지연되거나 순서가 잘못된 경우 그들은 아마도 같은 처리 과정에서 끝나지 않을 것입니다 시간 버킷 예를 들어 두 가지 메시지가 있습니다

둘 다 8시에 일어났다 집계에 그룹화가 포함 된 경우 함께 일어 났을 때 그들에 관한 추론 너는 그걸로 어려움을 겪을거야 그들은 이제 두 개의 서로 다른 처리 시간에있게 될 것이기 때문에 Windows 예를 들어, 나타난 택시를 세고 싶다면 같은 시간에 같은 장소에서, 처리 시간 Windows는 아마도 당신이 원하는 것이 아닙니다 우리가 정말로 갖고 싶은 것은 Event Time Windowing입니다

계략 입력이 도착하는 중입니다 시간 기반 셔플을 수행하려고합니다 이벤트를 기반으로 Windows에 레코드를 저장하는 방법 타임스 Dataflow에서이 작업을 수행하는 방법은 Windowing API를 사용하는 것입니다

Windowing을 사용하면 할 수 있습니다 Windowing을 사용하면 이벤트를 나눌 수 있습니다 이벤트 시간에 따라 Windows로 당신이 올바른 맥락에서 그들에 대해 추론 할 수 있다는 것 따라서 Dataflow는 여러 종류의 Windows를 지원합니다 두 가지 예는 결코 완전한 목록은 아니지만, 가장 간단한 유형 인 고정 윈도우와 같은 것입니다

Windows는 매분, 매시간, 매시간, 매일, 등등 이 Windows는 일반적으로 동일합니다 모든 처리 키에 걸쳐 Sliding Windows와 비슷한 또 다른 예가 있습니다 이것들은 고정 윈도우와 비슷합니다 그러나 작은 창들로 이루어져있다

앞으로 나아가는 시간과 함께 미끄러지도록하십시오 여기서 흥미로운 점은 Windows가 실제로 겹쳐서 감기다 또 다른 재미있는 예는 Session Windows와 같은 것입니다 그래서 세션은 그것들이 둘러싸인 활동의 사건들입니다 활동하지 않는 기간

세션에 대한 재미있는 점 세션 윈도우의 경계 데이터 자체의 기능입니다 그들은 선험적으로 알 수 없습니다 따라서 데이터를 처리하면서 계산해야합니다 데이터에 완전히 의존하고 매우 다르게 의존 할 것입니다 키에서 키로

따라서 이것은 가능하거나 쉽게 할 수있는 것이 아닙니다 전통적인 배치 시스템으로 데이터 흐름으로 처리하기 쉽습니다 물론 다른 윈도우도 가능합니다 구현의 문제이다 그리고 귀하의 신청서의 요구 사항이 무엇이든간에

그래서 Windows는 우리가 Event Time 우리는 집계를 수행하고 싶습니다 우리는 여전히 다른 질문에 답할 필요가 있습니다 처리 시간에 우리는 결과를 낼 준비가되었습니다 그렇게하기 위해서는 먼저 이벤트 시간 간의 관계를보다 잘 정의하기 위해 처리 시간 여기이 그래프를 보도록하겠습니다

수평 축에는 이벤트 시간, 세로 축에는 처리 시간이 있습니다 그리고 일어나는 모든 사건은 우리 시스템으로 전달됩니다 우리 시스템에 의해 처리됩니다 이 그래프의 어딘가에서 끝나야합니다 이벤트가있는 이상적인 세상에서 즉시 우리에게 배달되어 즉시 처리되며, 모든 사건은이 이상적인 대각선을 가로 지르거나 그 이상을 따라 줄 것입니다 따라서 동일한 이벤트에서 전달 및 처리됩니다

우리가 이벤트와 동일한 처리 시간을 처리 할 때 발생 시간 물론 현실은 그렇게 좋지 않습니다 네트워크 지연, 처리 중임을 알고 있습니다 순간적이지 않다 사실 모든 사건이 어딘가에서 끝납니다

이 이상적인 대각선 위 데이터 흐름은 우리가 완전성에 대해 추론 할 수있게 해주는 워터 마크 워터 마크는이 대각선보다 얼마나 멀리 떨어져 있는지 알려줍니다 우리는 그 이상의 경계를 그릴 수 있습니다 더 이상 이벤트를 볼 것으로 예상됩니다

이 워터 마크는이 그래프에서 빨간색 선으로 표시됩니다 우리가 우리의 근원에 관한 모든 것을 완벽하게 알고 있다면 – 그래서 우리가 출처에서 읽는다면 우리는 모든 것을 완벽하고 완전하게 알고 있습니다 워터 마크는 우리 시스템에서의 보증입니다 우리는이 지연을 넘어서 아무것도 본적이 없다 물론 많은 경우에 우리의 지식은 불완전합니다

따라서 워터 마크는 불완전한 보증입니다 정말 우리에게 말하는 발견 적 방법입니다 시스템의 지식을 최대한 활용하여 언제 새로운 데이터를 볼 것으로 예상하지 않습니까? 어느 쪽이든 워터 마크가 우리에게 말할 수 있습니다 주어진 Window에 대한 모든 데이터를 가지기를 기대할 때, 그러므로 그것이 올 바르면, 우리가 아는 한, 우리가 아는 한 최선을 다하여, 결과를 내 보냅니다 그래서 우리가 창문을 다시 본다면 시간 기반 셔플로 볼 수 있습니다

워터 마크를 사용하여 방출시기를 알 수있는 방법 창 결과 그러나 워터 마크가 모든 것이 아닐 수도 있습니다 트리거 출력에 사용하려는 두 가지 주요 이유가 있습니다 다른 것을 고려해야합니다 우선, 워터 마크가 너무 느려서 말할 수 있습니다 워터 마크는 가능한 한 보수적이되도록 노력하고 있습니다

모든 이벤트를 추적하려고합니다 시스템의 관점에서 위대한 완전성의, 그러나 아마 당신은 상관하지 않는다 예를 들어 매일 Windows를 사용하는 경우, 당신은 당신의 결과물을 얻지 못할 것입니다 아주 이른 시간에 하루가 끝날 때까지, 그러나 당신은 투기적인 초기 결과를 원할지도 모른다 일찍이

Dataflow가 API를 트리거하므로 트리거 할 수 있습니다 초기의 투기 적 산출 워터 마크가 너무 빠를 수도 있습니다 우리는 이미 우리가 모든 것을 알지 못한다면 우리의 근원에 관하여, 근원을 의미하는 늦게 또는 순서가 잘못된 데이터를 생성 할 수 있으며, 워터 마크가 불완전 할 수 있습니다 워터 마크 이후에도 이벤트가 올 수 있습니다

이미 발전했다 이 경우 Dataflow는 지연 데이터 트리거를 제공합니다 지연된 데이터가 순서대로 발생하면이를 처리 할 수 ​​있습니다 결과를 업데이트합니다 이제이 예제를 조금 만들어 보겠습니다

여기 우리는 Windows 2 분짜리 Windows를 가지고 있습니다 Event Time Windows – 워터 마크에 의해 닫히고 있습니다 그래서 우리는이 Windows에서 무엇을하고 있습니다 우리는 누적 합계를 만들고 있습니까? 처리 시간이 진행됨에 따라, 이 그래프에서 위로 표시된 것처럼 워터 마크가있을 때 우리가 언제 창을 닫을 수 있는지 알고있다 Window 경계를 패스합니다

여기에 하나의 이벤트가 있음을 주목하십시오 그것은 어떤 창, 그 사건에도 포함되어 있지 않습니다 9의 값으로, 그것은 늦은 데이터이기 때문입니다 내가 말했듯이 그것은 근원에 의해 방출 된 사건이었다 워터 마크가 이미 고급화 된 후에 우리가 그 근원에 대해 완벽하게 알지 못했기 때문입니다

어쩌면 그 사건이 누군가의 전화에서 비행기 모드에서 6 시간 동안 데이터 흐름의 최신 데이터 트리거 API 당신이 그것을 처리하고 어떤 종류의 업데이트 된 것을 내 보낸다 집합 그럼 이제이 모든 것을합시다 택시에 관한 몇 가지 질문에 답하기 위해 사용하십시오

우리가 이전에 본 데이터 간단한 질문부터 시작하겠습니다 주어진 시점에서 택시는 공항에서 어떻게 타는가? 뉴욕 전역의 택시 타기와 비교해보십시오 그리고 우리는 모든 것을 시도하고 사용할 것입니다 우리는 그 질문에 대답하기 위해 Dataflow에 대해 배웠습니다

그래서 우리가 여기에서 할 첫 번째 일은 우리는 파이프 라인을 작성할 것입니다 그것이 여기에서하는 것은 그것이 공항에서 시작되었습니다 그럼 우리가 어떻게해야합니까? 음, 우선 우리는 Pub / Sub에서 물건을 읽습니다 이전과 다시 해보 죠

다음으로 우리가하는 일은 승용차 ID 각 타는 것과 함께 그래서 타는 것 ID는 우리에게이 택시 타는 것이 어느 타는 점이 있는지에 관해 안다 우리가 함께 그룹화 할 수 있도록 연관되어있다 한 번 타고 오는 모든 포인트 좋아

다음으로 세션 윈도우를 사용하여 윈도우 경계를 그립니다 타고 주위에 그래서 우리는 창 경계를 처음부터 떨어 뜨린다 타는 것의 안에서, 그것은 픽업 포인트 다 탈락 시점 10 분 후, 타고있는 마지막 지점입니다

이 파이프 라인의 다음 단계는 트리거링 및 트리거링입니다 결과 전달 방법을 제어합니다 후속 변환으로 변환합니다 여기서 우리는 모든 요소에서 계속적으로 트리거합니다 그래서 우리는 우리가 지속적인 업데이트를 방출하도록 보장합니다

시각화 자에게 우리는 라이드가 시각화 장치에서 움직이는 것을보고 싶습니다 그래서 우리는 업데이트를보고 싶습니다 그래서 우리는 계속해서 방아쇠를 당길 원합니다 그리고 여기에서는 누적 트리거를 사용합니다

트리거를 버리는 것과는 대조적으로 우리가 창문의 전체 내용을 확실히받을 수 있도록 발사 때마다 그런 다음 창에있는 모든 점을 결합합니다 각 방아쇠 발사마다 그래서 우리는 우리의 결합 자만 신경 씁니다 우리는 출발점을 염려합니다

시작 지점을 순서대로 필요로한다 공항에서 시작된 놀이기구를 걸러 내야합니다 가장 최근의 포인트가 필요합니다 시각화에이를 방출 할 수 있습니다 AccumulatePoints combine 함수는 다음을 구현합니다

시작점을 추적하여 가장 최근의 포인트를 최신 포인트로 업데이트 가능할 경우 그런 다음 누적 된 탑승구를 버려서 필터링합니다 픽업은 공항에 없었다 위도와 경도를 비교하여이 작업을 수행합니다 위도와 경도가 잘 알려진 픽업 JFK, LaGuardia 및 Newark 공항의 포인트

우리가 실제로 걱정할 때부터 출력은 가장 최근의 지점에 불과하다는 것입니다 스테이지를 사용하여 가장 최근의 지점 만 필터링합니다 우리 누산기에서 마지막으로 Pub / Sub에 결과를 다시 작성합니다 그래서 우리가 이걸 실행할 때 그게 어떻게 생겼어? 따라서 시각화 프로그램에서 볼 수있는 놀이기구 JFK, LaGuardia 및 Newark에서 시작하는 것만 있습니다

원하는대로, 그리고 그 결과는 여전히 실시간으로 업데이트된다 우리의 방아쇠 상태와 신중하게 구성된 축 압기 따라서 우리가 공항 탑승구를 걸러 내 쓴 파이프 라인 그러나 우리 솔루션의 일부일뿐입니다 데이터 흐름 및 GCP를 사용하면 쉽게 작성할 수 있습니다 여러 독립 구성 요소

지금까지 택시 데이터를 가져 오는 것에 대해 이야기했습니다 Pub / Sub를 통해 그것을 섭취하고 우리의 시각화기를 가리키고 있습니다 그러나이 데이터를 사용하여 더 많은 작업을 수행하고자합니다 그래서 우리는 실제로 결과를 Pub / Sub에 다시 넣는 것입니다 그런 다음 ETL 파이프 라인을 통해 읽습니다

나는 그 결과를 취하는, 별도로 썼다 Pub / Sub에서 가져온 다음 BigQuery에 씁니다 이것은 데이터 흐름의 매우 표준적인 사용법입니다 이제 실제로 동일한 ETL 파이프 라인을 사용할 수 있습니다 BigQuery를 작성하고 원시 택시를 가리킨다

원시 데이터를 별도의 BigQuery 세트에 기록하는 피드 표를 사용하여 BigQuery 결과를 비교할 수 있습니다 원시 데이터 대 공항 데이터 그럼 우리는 무엇을 배울 수 있습니까? 원시 데이터에 대한 간단한 쿼리 뉴욕에있는 5 분 간격으로 도시에는 약 1,700 개의 택시 타기가 있습니다 뉴욕 큰 지역 어딘가에서 떨어집니다 그리고 타는 것의 평균 비용은 약 14 달러입니다

택시 회사의 평균 순 수익 5 분 간격으로 약 2 만 5 천 달러입니다 같은 5 분 간격으로 어떻게 비교합니까? 공항 데이터와 비교하면 어떻습니까? 우리가 공항 테이블에서 같은 쿼리를 가리킬 때 우리가 볼 수있는 건 분명히 훨씬 작지만 평균은 63에 불과합니다 나는 생각한다 – 타는 것의 평균 비용 당신이 기대하는 것보다 훨씬 더 높습니다 그것은 타는 것에 관해 약 52 달러 다 이 데이터에는 시간 기반 구성 요소도 있습니다

시간이 지남에 따라이 데이터를 그래프로 표시하면 우리는 무엇보다 먼저 명백한 일일 추세가 있음을 알 수 있습니다 전반적인 놀이기구 및 택시의 관점에서 하루 중 시간을 기준으로 놀이기구뿐만 아니라 흥미로운 사건이 있습니다 공항 타기 9시 방향 바로 전에 일어났습니다 어쩌면 도착한 큰 비행이 있을지도 몰라 또는 뭔가

따라서이 전략과 이러한 정렬을 사용하는 방법을 알 수 있습니다 데이터를보다 깊이 파고 들기위한 도구를 제공합니다 그래서 내가하고 싶은 다음 일이야 다른 멋진 기능에 대해 이야기하고 싶습니다 데이터 흐름 서비스

그럼 우리가 할 일은 새 코드를 실행에 배포하려고합니다 데이터 흐름 파이프 라인이 살아 있으며 우리는 이 모든 것을 기존의 것으로 유지하면서 서면에 대한 상태 및 집계 새로운 기능을 추가하면서 파이프 라인 따라서 우리가 업데이트 할 코드 우리는 공항 코드를 업데이트하려고합니다 전에 널 보여 줬어 우리는 단지 놀이기구를 찾는 것에서 그것을 갱신 할 것입니다

JFK에서 픽업하여 놀이기구를 찾는다 LaGuardia와 Newark에서 수거합니다 먼저 무엇이 옳은지 보자 지금 우리가 그것을 업데이트하기 전에 따라서 업데이트하기 전에 우리는 JFK에서 탈 수있는 놀이기구가 많이 있습니다

하지만 그다지 다른 곳에서는 진행되지 않습니다 다른 곳에 흩어져있는 놀이기구가 있습니다 그러나 정말로 교통은 JFK에서오고있다 그럼 우리가 여기서하려고하는 것은 우리는 코드에서 다시 언급 할 것입니다 LaGuardia와 Newark를 추적합니다

우리는 여기에서 뛰게 될 것입니다 이 파이프 라인을 업데이트해야한다고 알려줍니다 그게 내가해야 할 모든 것입니다 파이프 라인 이름을 알고 있기 때문에 오래된 실행 파이프 라인을 찾는 방법 새 코드로 업데이트하십시오 이제 업데이트가 실행 중입니다

몇 분 정도 걸릴거야 실제로 여기 UI로 이동하여 보여 드리겠습니다 파이프 라인은 결국 이곳에있을 것입니다 실행 중 상태에서 업데이트 중 상태로 이동합니다 2 분 정도 걸릴 것입니다

따라서 이미 업데이트 중인지 살펴 보겠습니다 아직도 스테이징 중입니다 따라서 여기에서 업데이트를 시작하겠습니다 업데이트가 시작되는 동안 라파엘이 이야기 할 것입니다 우리에게 ~ 오, 여기 간다

따라서 업데이트가 시작됩니다 여기에 몇 분 정도 걸릴 것입니다 라파엘은 그 동안 업데이트에 관해 우리에게 말할 것입니다 발표자에게 다시 알려주십시오 라파엘 페르난데스 : 내 말 들리니? 좋은

승인 Slava가 지금 당장 가지고있는 것, 그는 파이프 라인의 실시간 업데이트를 시작했습니다 즉 데이터 스트림의 시간 집계를 계산하는 것입니다 보시다시피 그는 Java 코드를 변경했습니다 그는이 변화를 전개하고 있습니다

그래서 이것이 우리의 전체 전략의 한 부분임을 주목하십시오 우리가 여기 GCP에 집어 넣었습니다 물론 직접적인 접근법이 있습니다 이 코드를 업데이트하기 위해 취할 수있는 파이프 라인을 쓰러 뜨리고 새 파이프 라인을 쓰고, 다시 제출하십시오 아마 우리가 할 수있는 최선은 아닙니다

사실 Dataflow가 더 잘할 수 있습니다 그 유스 케이스에서 어떤 일이 일어날 것인가? 당신이 단지 그것을 아래 위로 끌어 올리면, 우선 Cloud Pub / Sub는 계속 이벤트를 수신합니다 모든 택시에서 모든 사건들이 누적 될 것입니다 한 번 따라 잡을 수있는 일이있을거야 새 파이프 라인이 다시 시작되지만 더 중요한 것은 우리가 뛰고있는 동안에 기내에있는 상태를 잃을거야

원래의 파이프 라인 그럼 왜 이걸하고 싶니? 왜 업데이트하고 싶습니까? 많은 이유가 있습니다 기능 추가는 그 중 하나이며, 그러나 또 다른 매우 일반적인 시나리오와 관심사 당신이 의존하는 도서관이 어떻게 될 것인가? 보안상의 이유로 버전 관리가 필요합니까? 매개 변수를 변경해야하거나 컴퓨터의 유형을 변경하십시오 파이프 라인 등 백업 따라서 이러한 유형의 변화는 우리는 서비스 중단을 최소화하면서 그리고 귀하의 중간 상태를 보존하십시오 여기 상태는 정말 어렵고, 상태는 무엇을 의미합니까? Dataflow가하는 것들 중 하나는 – 헤이, 그것은 일하기 시작했습니다

Dataflow가 수행중인 작업 중 하나 낮은 지연 시간의 결과 전달 보장 점진적인 방식으로 물건을 계산합니다 예를 들어이 카운트 누적기에 초점을 맞추면 끝 근처에는 정말 상태가있다 창과 그 그룹에 대해 그리고 지금까지의 카운트 워터 마크가이 특정 단계를 진행할 때, 시스템은이 특정 단계를 시행합니다 이제는 결과를내는 것이 옳은 것입니다 그래서 점차적으로 이것을 계산 해왔다는 사실 당신이 바로 그것을 방출 할 수있게 해주는 것입니다

승인? 따라서 입력 내용을 다시 계산하지 않아도됩니다 시간이 지나면 그래서이 중간 상태는 우리에게 정말로 중요합니다 Dataflow가 할 일은 기본적으로 그 상태를 돌보고, 새로운 파이프 라인으로 이동하십시오 이 예제는 아마도 당신에게 사소한 것처럼 보일 것입니다

파이프 라인은 동일하게 보입니다 일종의지도의 상태 종류, 하지만 서비스가 당신을 위해 할 수있는 다른 것들도 있습니다 다른 변경 사항이 있기 때문에 업데이트 호환을 고려하십시오 업데이트와 호환되는 변경의 예 당신이 파이프 라인에서 제정하기를 원할지도 모르는 아마도 추가 및 / 또는 변형을 포함 할 것입니다 완전히 새로운 출력 경로

그것은 완벽하게 합법적이며 업데이트하는 것이 안전합니다 당신이 할 수있는 또 다른 일은 단계를 재정렬하는 것입니다 귀하의 파이프 라인 아마도 당신은 데이터의 특성 때문에 코드의 특성, 실험을 통해 이 단계들을 재정렬하는 결과 의미 론적으로 동등한 파이프 라인 훨씬 더 빨리 수행됩니다 일부 경우에 해당됩니다

당신이 적용하는 순서는 중요합니다 당신이 할 수있는 다른 일은 단계를 제거하는 것입니다, 우리가 방금 추가 한 단계처럼 우리는 단지 그것을 제거합니다 거기에 작은 별을 넣었습니다 수행하기에 안전하지 않은 업데이트 클래스입니다

이러한 업데이트에는 일반적으로 생성되는 변형이 포함됩니다 또는 소비 측면 입력 즉, 그들은 주 흐름에서 멀리 떨어져 있습니다 키잉 상태를 사용 중일 수 있습니다 윈도우 병합과 관련된 일부 작업이있을 수 있습니다

걱정할 것 없습니다 이러한 변경을 요청하면 데이터 흐름 서비스 업데이트를 거부하지만 원래 파이프 라인의 흐름을 변경하십시오 그래서 Dataflow가 당신을 위해 여기에서하고있는 다른 것들이 있습니다 이전 작업에서 업데이트 된 새 작업이 스핀 업되면 우리는 실제로 당신에게 직업의 출처를 보여줍니다 그것은 등등에서왔다

그래서 이것은 여러분을 대신하여 수행되는 많은 일입니다 그래서 당신은이 모든 고려 사항들에 대해 걱정할 필요가 없습니다 실제로 코드를 유지 관리 할 수도 있습니다 연속적인 계산을 할 때 Slava, 업데이트가 어떻게됩니까? SLAVA CHERNYAK : 한번 보죠

데모 기계주세요 큰 따라서 우리는 파이프 라인이 업데이트되었음을 ​​알 수 있습니다 이게 바로이 작업 이름이 실행중인 것을 볼 수 있습니다 이전 작업에서 업데이트되었다고합니다

그리고 우리가 시각화자를 볼 때 이제 우리는 많은 새로운 놀이기구가 있다는 것을 알 수 있습니다 지금 LaGuardia에서 왔어 우리 파이프 라인을 업데이트 한 후에 우리가 기대할 수있는 것입니다 지적해야 할 몇 가지 흥미로운 점 그러나이 시각화에서 사실입니다 JFK에서 우리 놀이기구의 첫 번째는 여전히 거기에 모두 있습니다

우리는 JFK에서 새로운 놀이기구를 얻는 것이 아니라, 우리는 여전히 JFK에서 온 모든 오래된 놀이기구를 가지고 있습니다 이것이 라파엘이 말한 것입니다 우리는 이전 파이프 라인 상태를 유지합니다 지적 할 또 다른 흥미로운 점 우리는 실제로 새롭고 오래된 놀이기구를 가지고 있다는 것입니다 LaGuardia의 새로운 놀이기구가 아닙니다

그리고 이것은 LaGuardia 타기가 이미 Pipeline에서 변경했습니다 끝에 그들을 필터링하는 코드 해당 데이터는 모두 Windows 및 상태에 이미 있습니다 누적되면서 방금 변경했습니다 우리가 파이프 라인 끝에서 방출 한 것

따라서 우리 파이프 라인을 업데이트함으로써 시작했습니다 LaGuardia에서 시작된 완전한 라이드를 방출합니다 업데이트가 실행되기 전에 그래서 이것은 유지에 관한 흥미로운 것입니다 파이프 라인 상태는 정말 당신이 옳은 일을하는 데 도움이됩니다 귀하의 파이프 라인의 경우

슬라이드로 돌아가주세요 라파엘 페르난데스 : 고마워, 슬라바 여기서 보여주지 않은 것은 엄청난 양의 뒤에서 일어난다 서비스, ​​데이터 흐름 자동 증가와 같은 당신을 위해 할 수있다 작업자 풀의 크기를 줄이거 나 늘리십시오

들어오는 데이터 스파이크 및 소강에 더 잘 대처하기 위해, 우리도 축소하기 때문입니다 우리는 돈을 절약합니다 그것은 좋은 것입니다 Pub / Sub (여기서는 표시되지 않음)이지만 글로벌 게시 구독 서비스 그것은 당신을 위해 확장 가능합니다

그것은 당신에게 매우 흥미로운 보장을 줄 것입니다, 그래서 당신은이 유형의 시스템을 만들 수 있습니다 정확성과 신뢰성을 염두에두고 분석가들이 가장 좋아하는 BigQuery는 당신을 위해 완벽하게 관리합니다 얼마나 많은 기계가 무엇을 언제하고 있는지 알지 못합니다 너는 그렇게해서는 안된다 당신은 단지 쿼리를 작성하는 것입니다

이것은 명심해야 할 정말로 강력한 것입니다 GCP로 개발할 때 데이터 흐름을 사용하여 실제로 생각할 수 있습니다 플랫폼의 나머지 서비스에 대해 싱크대에 소스로 데이터를 실제로 변환 할 수 있습니다 다른 목적으로 도착할 때, 결과를 지속적으로 전달하기 위해 또는 아카이브 또는 추가 변환을 위해, 그리고 정말로 매우 다른 서비스 활용 우리는 다양한 패턴을 가능하게해야합니다

최신 응용 프로그램에 필요합니다 요약하자면, 우리는 더 자세히 살펴 보았습니다 일부 기술에서는 데모의 힘 오늘 아침에 본 걸 우리는 지속적인 이벤트 처리 방법에 대해 심도 깊은 다이빙을했습니다 GCP, 특히 Dataflow와 비슷합니다

프로그래밍 모델의 힌트를 보았습니다 우리는 프로그래밍을 선호한다고 생각합니다 프로그래밍 대신 그 수준에서 기계 수준에서, 우리는 또한 이러한 구성의 우수 사례 강조 플랫폼으로 GCP를 다루는 방법에 대해 정말로 생각하고 있습니다 네가 빛을 낼 수 있도록 단일 흐름에서 다른 것들 물론 스트리밍 업데이트 정말 복잡하고 활발한 애플리케이션을 처리 할 수 ​​있습니다

다운 타임을 최소화하고 데이터 손실을 최소화하여 우리는 매우 중요하다고 생각합니다 마지막으로 Apache Beam에 대해 이야기하고 싶었습니다 그래서 2016 년 초 우리는 우리의 의도를 발표했습니다 데이터 흐름 프로그래밍 모델 및 SDK, Java, 우리는 지금 Apache Software Foundation에 파이썬을 가지고 있습니다 아파치 빔이 지금은 여러분과 함께하게되어 매우 기쁩니다

Apache Software Foundation의 최상위 프로젝트 이것은 다시 우리가주의를 기울이는 결과입니다 Google의 개발자 생산성, 우리가 지금 생각하는 새로운 모델을 개발한다 사람들의 공동체가 있기를 원한다 다양한 서비스에서 사용합니다

그럼 다음은 뭐니? 관심이 있으시면 내일 몇 차례 말씀 드리겠습니다 Apache Beam에 관해서 첫 번째 이야기는 실제로 집중되어 있습니다 지역 사회 측면과 생태계에 관한 이제 Apache Beam이 Apache의 최상위 프로젝트입니다 소프트웨어 재단

너는 우리가 어떻게 나아갈 지 알아낼거야 Dataflow SDK에서 Beam으로 이동하는 방법 그 주위의 이야기는 무엇입니까? 두 번째 이야기는 Portable에 대해 좀 더 자세히 이야기합니다 Apache Beam을 사용한 병렬 데이터 처리 및 이 이식성은이 모델이 실제로 커뮤니티에서 사용할 수 있습니다 우리는 당신을위한 자원도 가지고 있습니다 거기에 몇 개의 URL이 있습니다

당신이 더 찾을 수 있도록 여기에 코드 랩도 있습니다 데이터 흐름을 시도하려면 기회가 없었습니다 당신은 회의에서 실제로 여기 프로그램을 쓸 수 있습니다 이 택시 데이터를 활용하는 또 다른 코드 랩이 있습니다

이제 공개 데이터 스트림으로 사용할 수 있습니다 그래서 당신은 그것으로 놀 수 있습니다 이러한 유형의 응용 프로그램을 개발하는 방법을 배우고, 해당 코드 연구소에 액세스 할 수 있습니다 Codelabsdeveloper

googlecom 그래서와 주셔서 대단히 감사드립니다 귀하의 질문에 기꺼이 응해드립니다 [박수 갈채] 관객 : 안녕하세요

협조 해 주셔서 감사합니다 첫 번째 질문은 내가 똑똑한 그룹이 아니라고 가정 해 봅시다 나는 한 그룹에 많은 것을 가지고있다 이제는 한 가지 경우에 메모리가 부족합니다 그러면 어떻게 될까요? SLAVA CHERNYAK : 그래서 커플이 있습니다

그 질문에 대한 답을 우선, 응용 프로그램 수준에서 다음을 수행 할 수 있습니다 그래서 당신이 말하는 것은 또한 바로 가기 키 문제 그것을 처리하는 두 가지 다른 방법이 있습니다 하나는 응용 프로그램 수준에서 항상 가능합니다 더 나은 차트 작성 전략, 더 나은 키잉 전략 찾기 그래서 당신은 그 핫 키를 가지고 있지 않습니다

데이터 흐름에는 다단계 결합도 있습니다 근본적으로 팬 인을 통해 볼륨을 단일 키로 그래서 그것은 당신이 개발자로서 조금 알고 있어야합니다 완전히 투명하게 될 수있는 것이 아닙니다 데이터 흐름에 의해 처리됩니다

하나의 열쇠에 대해 모든 트래픽을 던지십시오 어떤 시점에서 우리가 할 수있는 일은 없습니다 그러나 그것이 당신이 알고있는 한 그것은 그것이 데이터 흐름 내에 도구가 있습니다 그것을 쉽게 처리 할 수 ​​있습니다 라파엘 페르난데스 : 그렇다면 여기에 머물러있는 고위 입찰가 중간 파이프 라인에서도 다시 키잉 전략을 찾고 있습니다

이것들을 지키기위한 아주 좋은 방법입니다 핫 키 또는 핫 그룹 관객 : OK 그리고 두 번째 질문을했습니다 기본적으로 이러한 업데이트를 언급하지 않았습니다

현재 시스템과 호환 가능 이 업데이트를 어떻게 실행 하시겠습니까? 그래서 기본적으로 실행중인 시스템을 어떻게 대체합니까? 라파엘 페르난데스 : 네 그래서 몇 가지 전략이 있습니다 사람들이하는 일은 흐름을 일시 중단하는 경우도 있습니다 계산 가능한 집합이 있다는 것을 알고 있습니다 시간 윈도우 중 어느 윈도우 "더러운"것으로 간주 될 것입니다

당신이이 데이터를 잃었을 것이기 때문입니다 그래서 그들은 몇몇 데이터를 제정 할 준비가되어 있습니다 손실, 업그레이 드이기 때문에, 그게 상응 깨는 변화 그리고 어떤 경우에는 괜찮습니다 그런 식으로 코드를 발전 시키십시오

우리가 본 또 다른 전략은 성공적으로 사용되었습니다 실제로 하나의 파이프 라인이 다른 조각을 가지고 있습니다 Pub / Sub를 사용하여 Pub / Sub에 게시 할 수 있습니다 이를 통해 파이프 라인 조각을 분리 할 수 ​​있습니다 진화하고 싶거나 아마도 데이터를 받기 시작하는 대체 브랜치 추가 특정 시점 이후에, 그리고 나서 다른 조각을 껐다

그래서 이것은 변화를 극복하고 대처하는 전략입니다 관객 : 고마워 라파엘 페르난데스 : 좋아 관객 : 나는 지각에 대해 질문이있다 라파엘 페르난데스 : 무엇에 대해서요? 죄송 해요

경청자 : Lateness 라파엘 페르난데스 : Lateness 관객 : 창 밖에있는 데이터 윈도우의 데이터가 수집되고 축적 된 후, 무언가가 범위를 벗어난다면, 기본 동작을 이해합니다 지체 매개 변수가 설정된 경우에도이를 버리는 것입니다

그게 사실이야? SLAVA CHERNYAK : 예, 맞습니다 관객 : Beam SDK에서 실제로 어떻게하면 좋을까요? 무엇보다도, 내가 어떻게하면 데이터가 처리되고 둘째로, 빔이 실제로 내려 가서 내려 앉습니까? 원시 데이터처럼 사용 된 원시 데이터 원래 창 에서요? SLAVA CHERNYAK : 첫 번째 질문에 대답하려면, 빔에 트리거가 있습니다 처리 기반을 트리거 할 수 있습니다 그 늦은 데이터 그래서 뭔가를 방아쇠를 당기기 위해 워터 마크를 사용하면됩니다

워터 마크를 기반으로 다음을 수행 할 수 있습니다 허용 된 지각과 함께, 가능한 지체를 더한다 거기에 매개 변수 너의 두 번째 질문을 이해할 수 있을지 모르겠다 그것이 데이터를 끌어 내리는 지에 관한 것입니다 – 아, 데이터, 전체 데이터를 제공합니까? 늦은 데이터가 담긴 원본 창 은요? 관객 : 음, 재 처리가 되나요? 내가 말하려고하는 것입니다

SLAVA CHERNYAK : 이것이 질문입니다 창을 모으거나 버리는 데 사용하는지 여부 내가 정확히 기억한다면 따라서 모든 트리거링 창을 누적하면 창 전체 내용을 전달하려고합니다 그것이 시간에 또는 늦게 있든 폐기 용 판넬이있는 상태에서만 진행됩니다

델타를 토대로 심의하기 가장 최근의 트리거 실행 관객 : OK SLAVA CHERNYAK : 그 질문에 대답합니까? 관객 :별로 따라서 버려진 데이터는 실제로 모든 원시 데이터를 버립니다 SLAVA CHERNYAK : 그래서 버리는 것, 그것이 의미하는 것 방아쇠가 우리가 델타를 배달 할 때마다 발생합니다 마지막 발사 발사 이후 델타 세트를 전달합니다

따라서 두 개의 트리거가있는 경우 워터 마크에서 트리거링합니다 두 번째는 늦은 데이터를 트리거하고 버리고 창이 먼저 내용을 전달할 창 워터 마크에 넣은 다음 늦은 데이터 만 전달하면됩니다 요소가 유일한 델타이기 때문입니다 청중 : OK SLAVA CHERNYAK : 매번 누적 창이 있습니다 당신이 배달 할 방아쇠가 발생합니다

창의 전체 내용, 누적 된 내용 그래서 워터 마크에서 무엇이든지있을 것입니다 그리고 당신을 방아쇠를 당기는 늦은 자료에 이전 내용과 늦은 날짜를 전달합니다 요소 따라서 창을 모으거나 버리는 데 사용하는지 여부 어떤 종류의 재 처리의 기능인가? 당신은 그 데이터에하고 싶다

그래서 늦은 요소에만 관심이 있다면 아마 당신은 폐기 판을 사용하고 싶을 것이다 창 전체 내용을 다시 처리하려면 당신은 창을 축적해야합니다 관객 : 그리고 내가 얼마나 멀리까지 시간 제한이 있니? 지각을 설정할 수 있습니까? SLAVA CHERNYAK : 실제로는 그렇지만 SDK 레벨에서는 그렇지 않습니다 따라서 실제로 얼마나 오래 데이터를 보관할 수 있습니까? 당신이 얼마나 많은 돈을 벌고 있는지 기꺼이 저축, 오른쪽, 파이프 라인의 지연 시간 더 이상 대처할 수 없기 전에 대처할 수 있습니다 권리? 그래서 내가 아는 한, SDK는 프로그램 적 한계를 강요하고, 하지만 거기에 1 년을 넣으면 계속해서 데이터를 던지면됩니다

1 년 내 Windows로, 어떤 시점에서 일이 깨기 시작할 것입니다 라파엘 페르난데스 : 그리고 당신을위한 실용적인 방법이 있습니다 얼마나 많은 데이터를 평가하고 실험하는지 당신은 기꺼이 지키고 얼마나 많은 지체인지 너는 기꺼이 용납 해 주의를 기울이는 것이 중요합니다 당신이 갖고있는 자원의 어느 시점에 있는가? max에서 프로비저닝 됨 처리 과정에서 백업을 시작하면 더 이상 지킬 수있다

그래서 당신은 바운드를 만들 수 있습니다 데이터의 특성에 따라 실험에 의한 전형적인 계산법 관객 : 창 방아쇠가 발사됐지만 가공은 – 나는 따라 잡을거야 난 그냥– 라파엘 페르난데스 : 네 해피

네 여기로 가자 관객 : 때때로 나는 매개 변수를 요구받습니다 내 파이프 라인에서 구성 할 수있는 실행하지 않아도됩니다 업그레이드를해야합니다

구성 가능한 런타임을 관리하는 좋은 방법이 있습니까? 매개 변수? SLAVA CHERNYAK : 몇 가지 답변이 있습니다 그 질문에 따라서 답변 중 하나는 귀하의 파이프 라인이 항상 사이트 입력에서 데이터를 읽을 수있다 파이프 라인 자체에서 생성되거나 또는 다른 설정 저장소에서 그래서 당신이 Dataflow 랜드에서 그렇게한다면 항상 사이드 출력을 낼 수 있습니다

그런 다음 어딘가에 측면 입력으로 소비됩니다 그리고 그 쪽 입력은 실제로 작았습니다 – 당신은 작은 것으로서 당신의 데이터 스트림의 조인이라고 생각할 수 있습니다 빈번하게 변이 된 데이터 세트 자주 음소거되지 않은 데이터 세트 당신의 구성이 될 수 있다면 그곳에서 업데이트하는 방법이었습니다 당신은 당신의 처리를하고 있습니다

RAFAEL FERNANDEZ : 그러나 이것은 당신을 허용하지 않을 것입니다, Windows의 길이와 같은 것을 변경하는 방법 즉석에서 이것들은 당신 자신의 코드의 매개 변수입니다 관객 : 네 라파엘 페르난데스 : 네 관객 : 고마워

페르난데즈 : 여기로 가자 관객 : 잠깐 워터 마크의 경우 조정할 수 있습니까? 또는 그것을 조정할 수 있습니까? 그 주위에 어떤 도구가 있습니까? SLAVA CHERNYAK : 대답은 현재 아니오입니다 그래서 우리가 시도하고 확립 할 때 우리가하는 일 워터 마크는 기본적으로 모든 것을 취합니다 우리는 출처에 대해 알고 있습니다

우리는 소스를 시도하고 모델링합니다 우리는 모든 데이터를 추적하고 유지합니다 일단 소스에서 데이터를 얻으면 나머지 메시지를 완벽하게 추적합니다 시스템 전반에 걸쳐 따라서 워터 마크의 목표는 가능한 한 완벽해야합니다

데이터를 추적 할 때 따라서 튜너 블 매개 변수가 없습니다 당신이 무엇인지에 대해 더 많이 말할 수 있습니까? 그걸로 뭘 하려니? 관객 : 그래서 걱정입니다 따라서 특정 응용 프로그램에서 작동 할 수 있습니다 하지만 모든 곳에서 작동하지 않을 수 있습니다

권리? 그렇다면 데이터에서 배울 수 있습니까? 시간 창에 대한 메트릭을 수집 할 수있는 방법이 있습니까? 그런 다음 매개 변수를 설정하거나 고정되어 있습니까? 라파엘 페르난데스 : 그래서 내가 잘 모르겠다 나는 네가하는 말은 두 가지라고 생각한다 하나는 Windowing 전략에 대해 이야기하는 것입니다 다른 하나는 시간의 흐름을 제어 할 수 있는지 여부입니다 기본적으로 워터 마크가 언제 나아가 야하는지 말합니다

그래서 두 번째 것에 관심이 있다면 우리가 할 수있는 기술과 것들이 있습니다 당신과 이야기하게되어 기쁘다 그리고 당신이 할 수있는 다른 것들 슬라바 (Slava)가 말했듯이, 워터 마크 (Watermark)는 함수이다 서비스가 데이터 소스에 대해 알고있는 것, 우리의 능력 너는 너의 허용 된 지각을 검사하는거야

우리는 도착의 관점에서 무엇을보고 있는지 더하기를 지정하십시오 근원으로부터의 보증, 그리고 우리는 정식으로 시간을 보내는 것이 안전 할 때를 안다 SLAVA CHERNYAK : 한 가지 더 말하게하겠습니다 기본적으로, 사용자 정의 소스 인 경우 너 말이야 당신이 쓴 원본이고 그때에 대해 가장 잘 압니다

사용할 서비스의 워터 마크를 제공 할 수 있습니다 따라서 사용자 정의 소스에 대해 워터 마크를 제공해야합니다 그런 다음 워터 마크와 결합하여 사용합니다 파이프 라인의 나머지 부분에서 그래서 당신이 어떤 종류의 타임 스탬프에 대해 가장 잘 압니까? 귀하의 서비스는 귀하가 최고의 출처임을 제공하고 있습니다 거기에 워터 마크에 대한 정보도 있습니다

라파엘 페르난데스 : 마지막으로 언급 할 전략 중 하나입니다 다시 한 번, 응용 프로그램에 종속적 인 모든 것 우리는 논리적 시간에 관한 거래를 설명했다 모든 데이터 이벤트에 시간과 시간이 있음을 의미합니다 의미가 있으며 이것이 워터 마크를 유발하는 것입니다 진보

실시간도 있습니다 맞습니까? 시간 진행이 실제 도착의 함수 인 곳 시간이 데이터의 일부가 아닌 곳 하지만 실제로 시스템 기능입니다, 다른 것들이 있습니다 당신도 거기에서 할 수 있습니다 관객 : 워터 마크는 두 가지 모두 고려합니까? SLAVA CHERNYAK : 아닙니다 그래서 그 질문에 대한 깊은 대답이 있습니다 예, 실제로 두 종류의 워터 마크가 있기 때문에, Watermarked라고하면 정말 큰 데이터 워터 마크에 대해 이야기합니다

이벤트 시간에 워터 마크 관객 : OK 라파엘 페르난데스 : 네 관객 : 좋습니다 고마워요

관객 : 프레젠테이션에 감사드립니다 세션을 보는 것이 꽤 재미있었습니다 타이밍 전략 중 하나의 종류로 그래서 나는 스트리밍에서 세션이 있는지 물어보고 싶다 스트리밍 데이터가있는 경우 가능하며 우리가 알아야 할 몇 가지 효율성 결함들이다 SLAVA CHERNYAK : 첫 번째 질문입니다

스트리밍에서 세션이 가능한지 여부입니다 네 그럼요 즉, Dataflow SDK에 내장되어 있습니다 지금 바로 사용할 수 있습니다 관객 : 네

SLAVA CHERNYAK : 네 효율성 문제까지는 내 말은, 나는 그것이 의도 한대로 작동한다고 생각한다 나는 내가 무엇에 대해 더 묻어야하는지 생각해 관객 : 이벤트 시간 대 실시간의 종류 전표와 물건의 종류 나는 세션에 관해서, 그 자체로 유발되는 것이기 때문에? 모든 메시지 – SLAVA CHERNYAK : 음, 그래서, 세션, 정의에 의해, 그것에 잠복이 생길 것입니다

맞습니다 세션 윈도우가 한정되어 있기 때문에 활동하지 않는 기간 그래서 당신은 세션이 있다는 것을 알 수 없을 것입니다 너는 아무 것도 볼 수 없을 때까지 끝났다 따라서 내장 레이턴시가 내장되어 있습니다

세션의 정의로 RAFAEL FERNANDEZ : 시스템의 트레이드 오프 세션을 계산할 수 있는지 여부 우주와 자원이 될 것입니다 그래서 그것은 실제로 진행되고 있습니다 매우 고르지 못한 데이터와 매우 어려운 세션이있는 경우 전략, 효과는 아마도 당신이 더 많은 중간 상태가 필요합니다 관객 : 그게 사실입니다

내 말은, 나는 광고 업계에서 온다 내 말은, [INAUDIBLE]은 분명히 세션에있는 사람들과 순서면에서 마이크로 스케일 집계에서 [INAUDIBLE] 할 수 있습니다 알았어 고마워 라파엘 페르난데스 : 좋아 SLAVA CHERNYAK : 좋습니다

알았어 페르난데즈 : 알았어 여기에 또 하나의 질문이 있습니다 관객 : 제 질문은 어떤 언어입니까? SDK가 현재 지원합니까? 라파엘 페르난데스 : 물론 SDK는 Java 및 Python으로 사용할 수 있습니다 파이썬에는 가용성이 있습니다

죄송합니다 파이썬은 데이터 흐름에서 배치를 지원합니다 Apache Beam 웹 사이트로 가면 그들은 이미 Python SDK와 Java SDK를 가지고 있습니다 내일에 대해 더 많이들을 수 있습니다 그러나 그것들은 구현 된 두 언어입니다

제 3 자 구현도 있습니다 이 커뮤니티에 대해 더 많이 듣게 될 것입니다 스칼라 구현을 생성했다 이걸 Scio라고합니다 그것은 Spotify에 의해 만들어졌습니다

그리고 다른 사람들은 지역 사회에서 논의하기 시작했습니다 관객 : 좋아요 라파엘 페르난데스 : 좋아 모두에게 감사드립니다 당신의 축제를 즐기십시오

[음악 재생]

Stock market strategy analysis with Big Data Analytics (subtitle on)

안녕하세요 빅 데이터 분석을 통한 주식 시장 전략 분석 Yuan Ze University CSE CS528 프로젝트 일부 날짜 / 재고 번호는 즉시 접선과 획기적인 지점을 그릴 수 있습니다 밴드 MACD 및 볼륨 (0 축 위로) 시스템은이 논리를 기반으로 획기적인 점을 만듭니다 (0 축 위로) 실린더에 MACD가있는 날짜를 확인하고 실린더가 다운 된 후 첫 번째 실린더가 돌아 오는 지 확인합니다

시스템은이 논리를 기반으로 획기적인 점을 만듭니다 MACD는 아래 기간 동안 실린더에 0 축을 착용 시스템은이 논리를 기반으로 평면 접선을 그립니다 시스템은이 논리를 기반으로 평면 접선을 그립니다 돌파구 전에 높은 볼륨 지원 압력 라인을 즉시 판단하십시오 주식 분포표 보유 주식의 43 % 이상> 1000 Yuan Ze University CSE CS528 프로젝트 일부

Busit IoT platform: Route your LoRaWan feeds to a Big Data analysis

검색에서 데이터 소스를 선택하십시오 여기에는 온도 센서가 있습니다

LoRaWan의 ID 및 URL 또는 LoRa 네트워크의 IP와 연결하십시오 숫자 필터를 사용하여 필수 데이터 필터링 사용하려는 값을 드래그하여 센서를 숫자 필터에 연결하십시오 Busapp를 사용하여 메시지에 정보 태그 추가 여기 센서의 위치 요소를 연결하여 메시지를 전송하기위한 규칙을 정의하십시오 Big Data Busapp를 선택하고 구성하고 요소를 연결하십시오 이 예제에서 우리는 또한 습도 센서 데이터가 다르므로 number의 새 필터를 구성합니다

요소 연결 위치가 동일하고 메시지를 Busapp Tagger로 요소를 연결하십시오 BusApp 이메일을 추가하면 H 센서 값이 70 미만일 때 경고를 생성 할 수 있습니다 시나리오 이름 지정 및 저장

Oracle Big Data Preparation Cloud Service: Performing Duplicate Analysis

[음악] 대형 데이터 세트를 다루는 동안 중복이 없는지 확인하는 것이 중요합니다 다운 스트림 응용 프로그램이 효과적으로 데이터를 처리 할 수 ​​있도록합니다

Oracle Big Data Preparation 클라우드 서비스를 통해 복제 분석을 수행 할 수 있습니다 Transform Authoring Page의 도구 모음에서 가져옵니다 복제 분석 대화 상자에는 변환에서 사용 가능한 모든 열의 목록이 표시됩니다 중복을 식별하려는 열을 선택합니다 선택한 컬럼 영역으로 이동하십시오

중복을 검색하는 동안 엔진에서 사용할 정밀도 수준을 지정합니다 최적의 결과를 얻으려면 슬라이더의 가운데 부분에 일치 정밀도 값을 설정합니다 중복 분석 설정을 적용 할 때, 결과는 프로파일 서랍의 마지막 페이지에 표시됩니다 이러한 측정 항목을 사용하면 데이터 세트에있을 수있는 중복 수를 분석 할 수 있습니다 고유 한 값의 총 수와 가능한 중복 레코드 수를 봅니다

번호 링크를 클릭하여 실제 행 값을 봅니다 중복 데이터 값을 보는 데 관심이 있습니다 비슷한 데이터 클러스터 목록과 각 클러스터 내의 레코드 수를 나타내는 개수가 표시됩니다 비슷한 기록을보고 기록이 중복되었는지 확인합니다 내 데이터를 검토 한 후, 도구 모음의 아이콘을 사용하여 스프레드 시트 또는 메타 데이터보기로 돌아갑니다

중복 분석은 또한 데이터 세트에 cluster_id라는 컬럼을 생성합니다 필요한 경우 이러한 중복에 대한 보고서를 작성하는 데 사용할 수 있습니다 자세한 내용은 cloudoraclecom에서 온라인으로 문의하십시오

보고 주셔서 감사합니다

Architect your big data solutions with SQL Data Warehouse and Azure Analysis Services – BRK3180

>>> 안녕하세요 사람들의 무리 우리와 합류했다

점심 우리는 다음 시간을 보낼 것입니다 몇 시간 만에 큰 일에 대해 이야기하기 그 퍼즐에 맞는 분석 서비스 종류와 넣는 방법 이러한 솔루션 중 하나가 함께 있습니다 우리는 각각을 걸을거야 그것에 대해 조금 이야기하고 시민

대화식입니다 손을 들어주세요 우리는 당신이 마이크도 당신의 목소리를들을 수 있습니다 당신이 뭔가에 관심이 있고 우리가 갔다면 빨리 또는 명확한 질문을 가지고 물어보십시오 오늘 우리와 함께 시간을내어 주셔서 감사합니다

이 두 제품에 대해 이야기하겠습니다 특히 관심을 가져야하는 이유와 함께 시작하십시오 우리는 세상에 대해 이야기 할 때 세상이 무엇을하고 있는지 생각합니다 데이터 및 우리가 시작하는 데이터로가는 회사 데이터는 무엇을 나타냅니다 우리는 데이터 증가에 대해 이야기합니다

그 일이 일어나고 있습니다 의회 도서관에서 ouflt 데이터를 생각하면 약 25 ~ 30 테라 바이트 2003 년에 그것을 비교해 보면 44 모든 형태 또는 형태의 전세계 이제 10 배 성장에 대해 알 수 있습니다

매혹적인 것은 당신이 그것을 얻을 수있는 자극입니다 우리는 당신이 구축 할 수있는 것들과 인간을 생각합니다 경험이 있거나 그것을 사용할 수있는 경험 그것이 암 연구에있어 더 나은 삶을 바꿀 수 있습니다 제품 및 서비스 시장을 타깃으로합니다 따라서 해당 데이터를 활용할 수 있다는 것은 정말로 중요합니다

지난 몇 년 동안 기계 학습의 폭발, 인간이 할 수있는 일을 컴퓨터로 시키지만 시간이 걸릴 것입니다 매우 싼 컴퓨팅의 혁신, 쉽게 사용할 수 관심 분야의 도구 세트 및 폭발 모두가 데이터 과학자가되고 싶어합니다 많은 사람들의 견해에서 진보의 새로운 방식을 제시합니다 새로운 학습, 반복적 인 학습 및 유혹을 얻을 수 있다는 것은 폭발입니다

우리는이 전환점에있다 오늘 이런 종류의 성장에서 이런 종류의 데이터 비즈니스 오늘날 대부분의 회사는 무리를 지어 클라우드로 이동하고 있습니다 다른 이유들 우리는 살 수없는 규모로 물건을 사다

우리는 실행의 전문 지식을 가지고 있습니다 수십만, 수백만의 서비스가 여러 지리적 위치 스캇은 사용 가능한 데이터 센터 수 및 이동 능력 그리고 모든 것을 유지하십시오 대부분은 실행중인 데이터 센터 당신은 제조업체에 대해 생각합니다

그들은 많은 서버를 운영하는 사업에 종사하지 않습니다 그들이 원하는 것을하는 것이 아닙니다 그것의 운영 결과입니다 그들이 지난 몇 년 동안해야했던 일 소매업 자와 다른 종류의 비즈니스에 대해 생각해보십시오

그들은 모두 같은 모델에 빠지게됩니다 존재하지 않는 질문들 최고 경영자 레벨에서 묻는 질문에 헤이 (hey)처럼 들리지는 않습니다 우리는 그들보다 우수한 데이터 센터를 보유하고 있기 때문에 경쟁 우위에 있다고 생각하십니까? 제품을 시장에 충분히 빨리 출시하지 않는 이유는 무엇입니까? 어떻게 된 일에 우리가 어떻게 빨리 응답하지 않습니까? 시장? 그래서 기업들은 매우 빠르게 확장하고, 매우 빠르게 움직일 수있는 능력을 제공 할 수 있습니다 신속하게 활용하고 오래 가지 않고 활용하십시오 지연 시간

그래서 우리는 그것에 대해 생각합니다 무슨 숫자인가? 사고 많은 사람들이 일종의 임의의 숫자 모든 것이있다 이것에 대한 훌륭한 사례 연구의 종류

공유하고 싶은 사람은 데이터에 관심이있는 사람입니다 anheuser-busch에 대한 훌륭한 연구가있었습니다 그것은 90 년대 후반에 돌아 왔습니다 나는 나이를 먹을 것이다 그들은 배달 트럭 운전사가 상점에 들어갈 것을 요구하고있었습니다

또한 각 매장에서 무엇을하고 있는지를 관리하는 것뿐만 아니라 그들은 그것을 집계하여 넣었고 그들은 시작할 수있었습니다 동향뿐만 아니라 경쟁사가 수행 한 작업을 검토했습니다 배달원이 상점에 들어서 있다고 상상해보십시오 그는 스태킹 중이며이 가게에 맥주 12 개를 넣어야한다고 말했습니다 나는 또한 cooler에는 맥주의 3 개의 케이스가다는 것을 본다

우리는 경쟁사가 무엇을하고 있었는지 추적하고 있습니다 그들은 경쟁자가 무엇을하고 있었는지 추적 할 수 있습니다 그들은 그 시점에서 연구 분석을하고있었습니다 나를 매료시킨 것은 그들이이 데이터를 사용하는 방법에 대해 생각하고 있었다는 것입니다 그들은 판촉 판매를한다면 무엇에 관해 생각하기 시작했습니다

특정 지역에 프로모션을 올립니다 어떻게 될 것이고 어떻게 될 것인가? 그들은 반응합니까? 그들은 그 (것)들이 경쟁자는 지역화되었고 신속하게 응답하지 않았습니다 그들은 생각했다 그들은 이러한 종류의 미세 판매가 효과적으로 수행 될 수 있습니다 회사가 어떻게 이점을 얻을 수 있었는지 정말 매력적이었습니다

그리고 뭔가 – 데이터 비즈니스라고 생각하지 않을 것입니다 그러나 진정으로 그렇습니다 그리고 저는 데이터가 사용되는 방식을 생각하고 싶습니다 생성물 내가 왜 사용하지 않는거야? 그것은 많은 일들이 일어나기 때문에 매혹적인 질문입니다

당신은 대부분이 같은 것들에 전문성을 가지고 있음을 깨닫습니다 관계형 엔진 얼마나 많은 사람들이 사용 했습니까? 많은 손을보십시오 얼마나 많은 사람들이 프로그램하는 법을 알고 있습니까? 자바에서 축소 된 작업을 매핑 하시겠습니까? 손이 꽤 빨리 작아집니다 그것은 아마 사람들이 고집하는 가장 큰 이유 일 것입니다

관계형 엔진 그것은 전문성 때문입니다 그것을 재교육하는 것은 어렵고 어렵다 그 것은 돈이 많이 든다 당신이 보는 것은 이런 추세입니다

여러분은 ld가하는 일의 이러한 추세를 보았습니다 이 부분을 우리가 이야기 할 내용으로 모드 Rn 하루 창고 그것을 어떻게 포함합니까? 그들이 실제로하는 일을 잘 활용하십시오 예를 들어 색인 생성 우리는 그것을 지난 몇 년

우리는 그것에 대해 이야기 할 수 있습니다 그것들은 수년 동안 관계형이었습니다 당신은 그들이 정말로 잘하는 상대방을 바라본다 반 구조화 된 파일 그래서 그들은 그것이 무엇인지 모를 것이라고 말할 수 있습니다

나는 모든 것을 밀어 넣고 싶다 그리고 나는 그것을 알아낼 수 있기를 바란다 관계형 세계에서 볼 수 있습니다 그래프 엔진 스포츠입니다 그들은 모두 일종의 합병입니다

흥미로운 것은 그 이유입니다 그것은 하나 또는 다른 하나가 실제로 혁신의 종류를 운전하고 있습니다 사람들이 알고있는 속도 모든 사람들에게 교육 다른 제품들과 그들을 재창조하는 방법을 가르치십시오 시간이 필요해 회사는 기꺼이하지 않는다

학습에 중요한 척도가 아니기 때문에 투자해서는 안됩니다 그것은 우리가 효과적이기까지 얼마나 걸렸는가 때문입니다 얻을 수있는 것들을 제공 할 수있는 것 우리는 그것이 어떻게 진화했는지 생각합니다 그래서 25, 30, 40, 50 년 전에는 많이 달라졌습니다

오늘은 너는 모든 새로운 것에 대해 생각해 우리가 짝짓기하는 것들 휴대 전화를 많이 본다 방금 튀어 나왔다

당신이가는 곳, 어떻게 빨리 가세요 도시의 어느 부분에 있었습니까? 당신이 먹던 곳의 식당들 방출하는 다른 장치에 대해 생각해보십시오 즉, 얼마나 많은 사람들이이 사이트에 연결되어 있는지를 포인트? 얼마나 많은 장치가 연결되어 있습니까? 20 년 전에 우리는 일종의 unlit 땅속에 묻혀있는 섬유 종류 그들은 내가 당신을 위해 그것을 배달했다고 말합니다

평범한 일의 종류 가져 가라 당신이하고있는 일에서 벗어나 컴퓨터에 구축하십시오 오늘은 그것의 영역에서 멀리 떨어져있는 것처럼 보이지 않습니다 우리가 구축 할 수있는 가능성 20 년 전에 사람들이 찾고있었습니다

우리처럼 오늘 우리는 생각조차하지 않는다 우리 모자 우리가 얼마나 잘 잤는지 말해 너는 클린터가있어 너에게 말한다 그것은 더 인간적인 기후입니다

당신은 물이 충분하지 않습니다 우리는 이러한 모든 자료를 보유하고 있습니다 그것은 일종의 인간 경험입니다 그것은 모든 곳에서 장치를 가지고 있습니다 당신은 다음과 같은 것을 볼 수 있습니다

예방 유지 보수가 발생합니다 그것은 온도가 급격히 상승했다 휴식 시간에 약 2도 그게 지표 야 그래서 너는 외출하여 기계를 유지하고 더 많이 만들 수 있습니다

실력 있는 그래서 그것들과 그것을 이해하기 위해 노출 기계가 응답하도록하는 것입니다 오늘 정말로 비판적입니다 또 하나는 우리를 어떻게 이끌어 낼 수 있는가에 대한 것입니다

세션이 전부입니다 어떻게 우리가 그들을 함께 넣을까요? 이제 그걸 활용할 수 있니? Microsoft가 제공하는 모든 다른 조각 당신이 마이크로 소프트로부터의 제안을 본다면 그것의 종류를 본다 제품에 대한 폭 넓은 견해와 화면 데이터 생성의 왼쪽 당신은 철저합니다

전통적이다 크리에이티브 및 업무용 응용 프로그램 그리고 어떤 종류의 새로운 사용자 정의 응용 프로그램이 만들어지고 있습니다 새로운 정보의 전부입니다 방출 됨 그것을 움직이고있다

시스템을 다운하여 데이터로 옮길 수 있습니다 호수 또는 클러스터와 그것을 할 수 있거나 섭취 할 수 있어야합니다 종류의 데이터 스트리밍 마이크로 소프트, 같은 종류의 모델에서 데이터를 가져올 수 있습니다 게임 회사는이 작업을 상당히 많이합니다

그들은 너와 같은 것들을 추적하고있다 갇혔어요? 많은 사람들이 레벨 47에 머물러 있습니까? 그것이 누가 온라인인지 그 종류인지에 대한 실시간 날짜입니다 물건 가장 큰 데이터 소스 Microsoft는 데이터 호수를 보유하고 있습니다 그래서 우리는 이것을 비늘로 이야기합니다

이들은 대량의 데이터를 저장할 수있는 대규모 시스템입니다 데이터 일반적으로 모든 것을 착륙시킵니다 모든 센서 데이터가있는 곳에서 네가 가진 모든 것에이 데이터 호수의 종류로 필요할 때 데이터를 저장하는 가장 좋은 방법은 아닐 수도 있습니다

그것 모두를 통해 그것은 착륙 지점입니다 우리가 조금씩 움직이면서 준비하고 훈련하는 것과 같은 것을 보게됩니다 그것은 그것의 꼭대기에 앉아있다 앉아서 물건을 사용하십시오

그것은 전통적으로 그들이 데이터를 가지고있는 성공적인 아키텍처의 종류 과학자들이 놀아요 원시 액세스이며 원시 데이터를 바탕으로 모델을 구축하고 모든 것을 볼 수 있습니다 조각으로 모델을 조정하는 방법을 이해합니다 이것은 사람들이 성공을 찾는 계층입니다 Microsoft는 여기에 일련의 도구를 제공합니다

이러한 종류의 믹스와 매치가 함께 있습니다 어떻게 작동하는지 설명하겠습니다 이 제품 중 일부는 하늘의 속편 데이터베이스와 이러한 작업 중 일부는 잘 함께 그리고이 나이들 중 일부 우리는 그 모델링에 대해서 이야기 할 것입니다 약간

그것은 정말로 인간의 소비가 아닙니다 보고 도구 같은 것을 생각해보십시오 가장 일반적인 분석 인 Excel을 생각해보십시오 타사 제품, 이런 종류의 전통적 제품 선동을받을 수있는 장소에있는보고 도구 그걸로 이것은 데이터의 형태로 제공됩니다

성공의 지표로 추적하는 양식 및 사물 이것은 이것이 모두 어떻게 배치되는지입니다 특별히이 세션에서 우리는이 두 제품에 집중할 것입니다 이것은 우리가 어떻게 착륙했는지에 관한 것입니다 데이터 및 수많은 고객에게 제공하는 방법 우리는 당신에게 예제를 줄 것이고 우리는 다이빙을하고 이야기 할 것입니다 각각에 대해 그리고 조금 깊이에 대해서

그래서 나는 그 종류를 벗어날 것이다 그래서 당신이 익숙하지 않다면 그것은 실행되는 규모의 관계형 서비스이고 그것은 합격 한 서비스이며 아키텍처를 기반으로합니다 그것이 바로 잠깐 설명 할께 그것은 데이터의 중심 허브로 자리 잡고 있습니다 우리는 이러한 운영 데이터 저장소를 사용했습니다

이것은 당신이 데이터 토지를 가지고 그것을 제공하는 일반적인 장소입니다 다양한 종류의 다양한 용도로 사용할 수 있는지 여부 데이터웨어 하우스 또는 최종 사용자에게 제공하고 있습니다 그래서 마이크로 소프트 오피스 내부에서 온라인으로 사용합니다 그들의 전에 개그 포인트 그것은 모든 사람들이 k를 볼 수있게하는 것입니다 개인 분석

그들은 할 수있다 단일 데이터웨어 하우스 얼마나 많은 사람들이 s & p를 알고 있는가? 대다수입니다 잠시 시간을내어 부셔보세요 동료 중 한 사람이 나보다 다른 비유를 사용한다는 것을 알고 있습니다

이것에 대해 생각하는 방식은 시스템이 구축되는 방식입니다 속편 서버 같은 것을 생각하면 기본적으로 공유 시스템 너는 모든 공유되는 것들, 메모리, cpu, io, 그 모두 당신이 mpp 시스템에 대해 생각한다면 그것은 공유되지 않는다 방주 — 건축물

여기 제가 사용하는 비유가 있습니다 우리가 집을 짓고 있다고 상상해보십시오 네가이 말을 들었다면 반복 우리는 나무 더미가 앞에 있습니다 우리와 망치

우리는 벽을 만들거야 우리가 이것을 할 수있는 몇 가지 방법이 있습니다 너는 우리 앞에 앉아있을 수있다 첫 번째 보드를 잡고 처음으로 함께 묶어서 조쉬와 그 사람이 손톱을 가져 와서 우리가 일하는 방식이 친절 하네 방 주위

일종의 s & p 시스템입니다 그들이 한 지난 40 년간의 일식은 일종의 전통입니다 어느 것이 더 빠른 망치이고 어쩌면 나는 더 빨리 또는 아마도 망치질 수있다 우리는 손톱을 만들어 조금 더 빨리 갈 것입니다 우리는 여전히 그 구성 요소를 공유하고 있습니다

우리는 아마 망치 하나 대신 4 개가 있다고 말할 것입니다 여기 네 개의 망치가 있습니다 우리는 건물 4 명이 있습니다 이 방을 통과하는 데는 시간이 걸릴 것입니다 시간이 좀 걸릴거야

너는 공유하고있어 시스템의 구성 요소 우리가 할 일은 이것입니다 우리는 모두들 말하고 망치를 들고 손톱을 가져 와서 조각을 얻습니다 나무

함께하면 우리가 함께 지낼거야 그리고 내가 말할 때 모두들 망치질 망치 벽이 지어졌습니다 모두가 경쟁하지 않습니다

망치 각 구성 요소는 유닛은 작업해야하며 전체적으로 조립됩니다 수색 빙 검색이하는 일을 상상해보십시오 커피를 찾고 있다고 해봐

Raph 모델과 끊어짐 개별 컴퓨터에있는 사람들은 질문에 대답 할 수 있습니다 빙 검색 색인의 일부 그것 모두는 분할에서 일어난다 둘째 응답 시간을 수십 초

우리 데이터웨어 하우스에 대해 이야기하십시오 그것은 sequel 서버입니다 이것은 동일한 속편 서버입니다 넌 살수있어 우리는 그것에 대해 이야기합니다

우리가 이야기 할 수있는 것은 2017 년이다 수년 및 수년간의 지식과 학습에 관한 정보 모든 것을 활용하는 시스템을 구축하십시오 핵심 구성 요소 클라우드에서 실행되면 하늘빛이 제공하는 모든 것을 활용하십시오 창고

몇 개의 버튼을 클릭하면 완전히 관리되는 서비스가 제공됩니다 자동 관리 기능을 활용합니다 더 이상 인프라에 대해 생각할 필요가 없습니다 이번 주에 다른 옵션을 소개했습니다 성능 등급을 통해 귀하의 실적을 최적화 할 수 있습니다

우리는 계산의 분리라고 부르는 것을했습니다 아이디어는 당신이 필요로하는 통근 거리를 확장 할 수 있다는 것입니다 비즈니스 요구 사항에 맞게 때때로하십시오 흥미로운 점은 1 년 전의 일입니다 고객은 항상이 작업을 수행합니다

그들은 실제로 데이터 및 매우 큰 시스템을 가지고 있으며 그 규모가 줄어들 자마자 그들은 봉사 할 수있는 힘을 필요로하지 않습니다 나머지 작업 부하 그들은 그것을 축소하고 저장합니다 Themtss doss

우리는 그것을 축소하지 마십시오 가장 많은 성과가 필요합니다 그들은 시스템 밖으로 필요합니다 그래서 우리는 이것을 통근 문제 그것은 당신에게 더 많은 성능을 제공합니다

우리는 훨씬 더 식물을 수행하게하는 것들을 가지고 있습니다 우리에게는 탄력성이 있습니다 그것은 정말로 당신에게 그 능력을줍니다 아이디어는 비용을 절감 할 수 있다는 것입니다 아이디어는 그들이 달릴 수있다

양자 모두 그것은 그들에게 옵션을 준다 비용 절감 다른 큰 종류의 이것에 대한 구성 요소, 우리는 시스템에 대해 생각합니다 내가 속편 서버에 대해 많이 말하는 것을 들었다

나는 데이터가 상주하고 도전에 대해 이야기했다 얼마나 많은 사람들이 폴리베이스에 익숙합니다 그것은 당신이 데이터를 속편 수 있습니다 그것은 확장 된 관계형입니다 우리가 본 성과

그것이하는 일은 당신이 상상할 수있는 것입니다 너는 이것과 비슷한 성명서를 가지고있다 커버 아래에 속편이 무엇을하고있는 것은 레크 장부입니다 속편 서버에서 제공되지 않습니다 그걸 당겨서 전에 그걸 네가하는 걸 보행자

너가 할 수있는 다른 어떤 방법과는 달라 보인다 그것은 당신에게 그들을 결합하는 능력을 제공합니다 그런 다음 그 데이터를 이해할 수 있습니다 공개 토론에 관한 몇 가지 세션이있었습니다 우리는 polybase로 애니메이션을 제작하고 있습니다

당신은이 모든 것들을 배치하는 데 어떻게 도움이되는지 배울 수 있습니다 회사 전체의 데이터를 단일 뷰로 통합하십시오 마지막으로 우리가 창고에서 제공하는 마지막 사항 원근법 우리 당신이 제공 할 때 제공됩니다 그것이 일어 났는지 확인하는 것을 생각하십시오

P 중요 Chbl 그것은 그것이 할 수있는 것입니다 요트 사업 결정을 내 보냅니다 이 지역에서 우리의 판매는 어떻게 이루어지고 있습니까? 우리의 인벤토리가 여기 보이는 것은 무엇입니까? 따라서 데이터웨어 하우스를 가동하고 사용할 수 있는지 확인하십시오 사용은 중요합니다 Azure가 제공하는 유일한 제품입니다

이러한 종류의 가용성 우리가 너에게 가용성을 통해 시스템이 가동되고 있음을 알 수 있습니다 이제 어떻게 작동하는지 이야기하고 싶습니다 우리는 일종의 간단한 견해로 시작하고 싶습니다 우리가 갈 때 이것을 깨뜨릴 것입니다

이것은 실제 아키텍처입니다 우리는 모든 것을 볼 수 있습니다 산산조각 그래서 xbox를 생각해라 우리는 당신에게 모든 것을 제공하기 위해 종류의 도구 조합을 사용합니다

고객은 무엇을하고 있습니까? 그들은 어디에서 길을 잃었 는가? 대시 보드? 그들은 새로운 기능을 찾고 있습니까? 얼마나 자주 소셜 구성 요소를 사용하고 있습니까? 그들이하는 일은 사물의 조합 그래서 데이터를 섭취하고, 그것을 저장하고, 그것을 변형시키고 봉사하며 그들의 경우에는 우리 부부가있다 우리가 가지고있는 내부 도구 중 많은 사람들이 xbox에 살고 있습니다 연령 그들은 일종의 섭취로 남아 있습니다

도구 우리는 또한 X 박스와 같은 것을 사용합니다 팀은 푸른 하늘과 같은 것을 사용하고 있습니다 그들은 우리가 소유하고 운영하는 관리 서비스로 옮겨 가고 있습니다 뿐만 아니라 우리는 그들에게 달려 있습니다

비즈니스뿐 이것은 매우 대형 클러스터 모든 원시 데이터가 저장됩니다 거기에서 그들은 궁극적으로 어떤 종류의 준비와 스테이징 및 섭취 단일웨어 하우스 클러스터에 그 시점에서 그들은 일전에 한 무리의 일을하고 사물을 본다

분 또는 시간 단위로 이 중 일부는 다른 일부에 표시됩니다 제품 그룹에서 사용하는 보고서 그것들은 봉사한다 D와 그들은 규모와 단점을 위해 그것을한다 통화 후속 데이터는 일반적으로 일종의 데이터입니다

몰락 당신이 뭔가를 생각한다면 오피스 온라인에 로그인하는 모든 서버를 사용하고 싶습니다 Office 온라인 계정이지만 단일 데이터에서 수행하려고합니다 창고 이것은 제품 종류의 인터랙트

그래서 나는 나의 휴대용 개인 컴퓨터에 여기에서 뒤집을 것이다 우리가 다시 로그인 할 수 있는지 알게 될거야 완벽 해 그래서 우리가 할 일은 내가 너를 이걸 통해 걸어 갈거야 이것은 화려한 데모가 아닙니다

조쉬는 나중에 그렇게하게됩니다 이 시스템 중 하나가 여기서 어떻게 작동하는지 알려줄 것입니다 조금 뿐만 아니라 비밀 언어인가? 그러나 당신이 어떻게 할 수있는 방법 나는 당신에게 무엇을 보여주고 싶다

시스템이 작동 중입니다 그래서 나는 여기에 연결되어 있는지 확인하기를 원합니다 나는 연결을 잃어 버렸습니다 우리는 거기에 갈 이제 우리는 돌아 왔습니다

따라서 이것은 데이터웨어 하우스입니다 거기에 유명한 데이터가 있습니다 모든 택시를 이용합니다 정보 및 게시 온라인 약 12 13 억 행

이것이 바로 우리가 함께 일하는 것입니다 이 경우 나는 무엇을 시작할 것인가? 이 클러스터가 얼마나 큰지 보여 주겠다 함께 일하기 함께 일하는 사람 수 그리고 얼마나 많은 사람들이 망치를 가지고 있는가? 익숙한 그래서 우리는 이것을 6,000 dw라고 부릅니다

내가 이걸 볼 수있어 교통 경찰입니다 그 망치와 못을 사용하면 괜찮다고 말하는거야 하나, 둘, 셋, 준비,가 나는 본질적으로 교통 경찰

본질적으로 망치를 가진 60 명입니다 아이디어는 우리가 이것을 실행하는 것입니다 분산 된 계획과 우리는 일을 되찾고 우리는 그것을 아주 할 수 있습니다 매우 빠르게 그래서 내가 그것에 대해 알고있는 것은 어떤 데이터 정보도 가지고 있지 않다는 것입니다

이것은 전통적인 종류의 날짜 모델입니다 나는 너를 그렇게 지적하고 싶었다 어떤 일이 벌어지고 있는지 알 수 있습니다 당신이 그것에 대해 생각할 때 그것에 대해 다른 점은 방법입니다 데이터가 있습니다 그것들은 모두 하나의 상자

이 시스템에서는 모두가 아니라고 말했습니다 60 인스턴스는 사본입니다 그것은 말이되지 않습니다 우리는 그것을 쪼개서 생각할 수 있습니다 우리는 귀하의 데이터를 분리했습니다

너는 통제 할 수있는 것이 아니다 그들이하는 일과 그들이 관리되는 방식 우리는 그렇게한다 너를 위해서 하위

첫 번째는 복제 된 모델입니다 그래서 그들은 그것을 사용할 것이고 그것은 매우 빠른 접근을 가지고 있습니다 나는 이유를 1 초 만에 설명 할 것이다 두 번째는 라운드 로빈입니다 표

나는 그것을 취한다 그것을 착용하십시오 전체에서 데이터를 순회하는 아이디어 그것의 마지막으로, 우리는 일종의 모든 데이터에 참여하려고 시도합니다 노드와 유사하므로 데이터를 이동할 필요가 없습니다

이제, 이들 시스템 중 하나에서 가장 큰 문제는 데이터 이동입니다 정말로 큰 파일이 있다면 당신이 비디오를 찍었다 고 가정 해 보겠습니다 아이들과 너는 그것을 다른 사람에게 옮겨 얼마나 오래 걸릴 까? 여기에 500 기가의 파일이 회전 테이블 파일로 옮겨집니다 언제 나타날지 알 수 있습니다

내가 움직일 때까지 47 일이나있다 이 파일 그것은 영원히 걸립니다 그것이 우리가 물리적으로 직면하는 한계입니다 그것은 어렵고 비효율적입니다

당신이 할 수있는 모든 것은 데이터 이동 최적화 안 함 약 그리고 당신의 경험을 바탕으로하십시오 이 경우 나는 간단한 테이블을 생성 할 것이다 이 경우 복제 된 테이블입니다 모든 노드로 이동합니다

두 가지 다른 색인 생성 방법이 있습니다 모델 그래서 나는 이것을 kbikly 할 것입니다 테이블을 만드는 데는 단지 1 초가 걸릴 것입니다 그것은 모두 매우 직설적입니다

모든 일을 복용 이번 주 그것이하고있는 일, 그것을 달리고 그것을 잡았습니다 그것을 모든 노드에 복사했습니다 이 경우에는 두 번째로 현금과 다른 모든 노드를 만듭니다 다시 실행하면 거의 볼 수 있습니다

동시에 일어나는 그래서 이것은 실제 데이터는 우리가 볼 수있는 종류의 이 시스템 그것은 우리 시스템이 얼마나 강력한지를 보여줍니다 그렇지 다음과 같은 결과 공유시 문제 없음 너 공개적으로

그래서 이것은 처음의 일종입니다 그것들과 이것은 사람들이 측정하기를 원하는 경향이있는 것들입니다 그들과 함께 많은 측정 값들이 있습니다 안녕하세요

저는이 모든 것을 내 모든 것에 돌리고 있습니다 그 안에 많은 기억이있어 이것은 내 디스크에 앉아있다 후속 데이터웨어 하우스 그것은 당신의 작업량이 실행됩니다

결과를 여기에 텍스트 약 05 초가 걸릴 것입니다 그래서 잠깐 그래서 꽤 괜찮습니다

공연 당신은 괜찮다고 생각합니다 나쁘지 않아 그것은 당신에게주는 예입니다 아이디어의 종류

이 테이블의 모습을 보게되면 우리가 그것을 어떻게 조합하는지 흥미롭게 디자인되었습니다 이것은 열이 분산 된 테이블입니다 우리는 결과를 볼 수 있도록이 작업을 의도적으로 수행했습니다 시스템이 수행 중입니다 아이디어는 우리가이 개념을 가지고 있다는 것입니다

여기 샘플이 있습니다 그것은 몇 분 동안 우리는 900 밀리 초에서 끝났음을 알 수 있습니다 170 밀리 초 우리는이 모든 것을 나에게 되돌려 보냈습니다 이것은 서해안에 앉아 있습니다

그게 모두 174 년에 일어난 일이야 밀리 세컨드가 살고 있습니다 나는 이것을 계속해서 또 다시 실행할 수있다 다시 그 속도로 일어난다

계속 우리는 그 일을 매우 효율적으로 수행 할 수 있습니다 우리는 그 모든 것을 뒤로 끌어 당깁니다 그리고 이것은 우리가 가지고있는 곳입니다 서빙 계층

그 모든 데이터를 가져갈 수 있습니다 르 마지막으로 얼마나 많은 사람들이 새로운 게임을 클릭 했습니까? 시간? 얼마나 많은 사람들이 레벨 42에서 길을 잃었 는가? 지난 6 개월 동안 귀하가 사용할 수있는 데이터로 만드십시오 ind 그것을 몇 시간 또는 며칠 씩 걸리십시오 최종 사용자가 사용할 수 있도록 만들어서 만들 수 있습니다

매우 빠른 결정 이것이 우리가 말하는 요점입니다 척도에 관해서 이것은 피벗이 일어나는 곳입니다 따라서 모든 사무실 사용자에게이 정보를 노출하면됩니다 내 조직의 전자 메일이 얼마나 효과적입니까? 그것은 수억억 일 수도 있습니다

이 일찍 끝난 데모가 있습니다 주 그는 한 조를 테이블에 올려 놓고 동일한 데모를합니다 당신이 정말로 시작할 수 있다고 계산하는 데는 몇 분이 걸립니다 알다

당신을 추측하는 대신에 이것으로 모든 대화를 마치 x의 실제 대화입니다 그 대화는 강력 해집니다 우리는에 피벗 시작합니다 이 같은 조쉬가 여기 들어 와서 이야기 할거야

이 데이터로 건물을 구성하는 방법에 대해 창고 솔루션 >>저기서 돌아 왔니? 괜찮아 얼마나 많은 사람들이 사용하고 있습니까? 누구든지 엑셀을 사용합니까? 일반적으로 하나는 전체 방입니다 그래서 모든 도구와 몇 명이 더 이야기하고 데이터를 가져 와서 시각화 할 수 있습니다 최종 사용자가 소비합니다

따라서 이동하지 않고도 직접 데이터에 연결할 수 있습니다 서비스를 발표하려고합니다 그럼 왜 그걸 넣고 싶니? 사용자와 데이터의 중간에 있습니까? 몇 가지 이유가 있습니다 우선 시맨틱 모델입니다 데이터가 데이터베이스에 저장되면 데이터베이스에 저장되지 않습니다

가장 비즈니스 친화적 인 방법 많은 사람들이 어떤 종류의 택시인지 알았습니다 택시 타입 2 대 반드시 최선의 방법은 아닙니다 들어와

그래서 나는 테이블 목록을 얻을 것이다 데이터는 잘 알고 있지만 그렇지 않습니다 아주 좋아 그들은 어떻게 그들이 합류하여 평가 방법에 대한 비즈니스 논리를 찾아 냈습니다 어떻게해야합니까? 이 모든 것을 사용자간에 재사용 할 수 있습니다

당신이 이것들을 얻을 수 없을 때 연결을 끊고 드래그 앤 드롭하여 시작하십시오 건물 두 번째 부분은 극도로 빠른 쿼리 다른 많은 도구들이 있습니다 실례합니다

나는 내내 내 목소리를 잃어 가고 있습니다 그들은 극도로 까다 롭습니다 각각 하나 이상의 쿼리를 생성합니다 당신이 가지고있는 모든 조각들 또한 생성 될 것이고 모든 종류의 히트 하나의 데이터베이스 시각 그래서 이것은 매우 까다로울 수 있습니다

그것은 단지 한 명의 사용자입니다 너는 그들 모두를 많이 보았다고 생각한다 동시 정말 데이터베이스를 망칠 수 있습니다 그 택시를 한번 보자

데이터 그래서 이것은 연결된 데스크탑입니다 푸른 하늘에 그것뿐만 아니라 모델입니다 여기 모델에서 우리는 또한 모든 데이터를 현금화했습니다 기억

내가 현금으로 말하면 기억에 남는다 메모리는 100입니다 계산 방법을 알 필요가 없습니다 내가해야 할 일은 여기 캔버스 여행 표

거기에는 약 10 억 개의 행이있었습니다 그래서 우리는 정말 어떻게 보여주고 싶었습니다 빨리 될 수 있습니다 우리는이 데이터를 약간 만들었습니다 큰

천만 개가 넘는다 이 데이터베이스의 행 그것은 그들을 스캔하고 결과를 우리에게 돌려주었습니다 많은 사람들이 그것을 끌기 때문에 슈퍼가 다시 온다 빠른 여기

그렇다면 실제로 어디에서 발생하고 있습니까? 나는 이것을지도에 여기에 넣을 것이다 그것을 클릭 할 때마다 결과가 다시 나타납니다 그 순간에 100 억 회의 여행을 지도 그리고 당신은 10 점을 얻습니다 수십억의 작은 작은 점들

그럼 최고의 장소는 어디입니까? 나는 어디에서 가장 돈을 벌 수 있을까? 고객을 데리러 가고 있습니까? plets는 여행 당 수익을 얻는가? 이 논리는 우리를 전제로합니다 그것은 당신이 모든 것을 가로 질러 평균을 되돌아 가게합니다 선택을 위해 가장 인기있는 우편 번호로 분류 해 보겠습니다 Ups 이 돌아오고있다

새로운 우편 서비스에서 실제로 인기있는 두 개의 우편 번호 요크 아무도 그게 뭔지 짐작 하네 아마도? 그들은 이것을 창조 할 것이다 첫 번째는 jfk 공항이며 두 번째는 la guardia 공항입니다 그래서 클릭 할 때마다 여기에서 하나를 실행했습니다

모두가 몇 초 만에 다시 돌아 왔습니다 그래서 내가 만들 수있는 것처럼 보입니다 적어도 여행 당 la guardia에가는 대 얼마나 많은 여행을 할 수 있습니까? 나는 조금 더 멀었다 저것을 다시 가져 가자

그리고 우리는 그것을 떨어 뜨릴 것이고, 전체에서를 볼 것이다 여행의 횟수와 횟수를 나누십시오 하나 평균 여행 지속 여기에 작은 방을 만드십시오

이것은 여행의 횟수를 보여줍니다 여행은 이 필터를 실제로 만들지 않고 실제로 필터링합니다 그것을 썰어 나는 jfk를보고 싶다 결과는 여기에 있습니다

대부분의 30 분에서 45 분 사이의 여행 대다수는 15 ~ 20 분입니다 라 가디 아에서 사람들을 데리러 오면 나는 더 많은 여행을 할 수있다 거기에서 라운드 트립 매번 발걸음을 돌리는 때마다 여기에는 쿼리, 두 개의 쿼리, 세 개의 쿼리가 있습니다

데이터가있을 때 할 수있는 일 중 일부입니다 그게 빠르니? 그렇다면이 모델 중 하나를 어떻게 구축할까요? 다른 데이터 세트를 보여 드리겠습니다 이제 누구도 이걸 기억하지? 여기에 우리가했던 데모가 있습니다 여러 해 전에 우리는 어떤 것을 과시하려고 노력했다

얼굴과 그림을 인식하는 새로운 api 그것은 그것의 일부 였고 그것의 다른 부분은 기본적인 것을 모으고있었습니다 웹 원격 측정 우리는 원한다 그렇게 스트리밍하려면 정말 멋진

실시간 데모 및 실시간 대시 보드를 보여 주었지만 우리는 또한 그것을 다시 떨어 뜨 렸습니다 그리고 우리는 좀 더 상세한 범위를 떨어 뜨릴 것입니다 우리는 사건이 발생했을 때 그것을 내려 놓을 것입니다 우리는 그 데이터를 고르고 데이터웨어 하우스를 만들 것입니다 그 데이터가 들어 있습니다

이제 내가 할 일은 그 위에 모델 보고서를 작성하는 데 도움이 될 것입니다 그 데이터 그래서 나는 이미 그것을 창조했다 새로운 버튼을 클릭하기 만하면됩니다

데이터 및 분석 단 몇 분 안에 나타납니다 일단 우리가 가지고있는 서버 새로운 웹 모델링 도구 그러면 디자이너가 열리고로드됩니다 우리가 거기에있는 마일 새로운 기능을 추가하겠습니다

모델 클릭 만하면됩니다 그리고 그것은 여기에 몇 가지 출처를 던질 것입니다 그것들은 모두 스튜디오 시각 도구에서 사용할 수 있습니다 우리는 더 많은 것을 추가하기 위해 노력할 것입니다

이리 로드 할 수 있습니다 우리는 여기서 새로운 것을 만들 것입니다 나는 dw를 클릭하면 나에게 내 모든 dws를 줄 것이다 신청

그래서 내가 올바른 서버를 찾을 수 있도록하자 우리는 많은 DW를 가지고 있습니다 수백 개의 테이블과 수백 개의 테이블입니다 우리는 실제 데이터를 사용하지만 간결한 테이블을 사용합니다 스테이징 테이블과 같은 것도 여기에서 볼 수 있습니다

외부 테이블 좋은 이유가 없다 비즈니스 사용자에게이를 보여줍니다 나는 잘 수행 된 테이블 만 선택합니다 여기에 사실 테이블이 있습니다

나는 창조를 말할 것입니다 나를위한 모델을 만들 것입니다 자동으로 완료됩니다 그것이 여기에서하는 일은 그것을 창조하는 것입니다 기본적으로 여기에 있습니다

그 모델은 나에게 유용하다 사용 나는 여기 와서하자 그냥 세션 ID를 가져 가라 여기에 떨어 뜨려 라

따라서 이것은 모델을 테스트 할 수있는 디자인입니다 나는 그것을 실행할 것이다 그것은 그것을 번역하고 그것을 달렸다 데이터웨어 하우스의 맨 위에 있습니다 이 테이블이 약 6 억 행

이제는 데이터웨어 하우스에서 관계를위한 것입니다 그래서 우리는이 모델에 대해 자동으로 생성 할 수 없었습니다 뒤집어서 빌드하고 빌드 할 수 있습니다 그건 우리에게 자동으로 제공되는 것이 아닙니다 이것에 작은 방을 만들어라

캔버스 사진 사실과 우리는 브라우저 있습니다 여기 테이블이 있습니다 그리고 저는 앞으로 나아갈 것입니다 테이블 위로 드래그하십시오

당신은 그 사람들과 합류하기를 원합니다 이를 생성하여 모델에 저장하고 다시 시작합니다 제출 방법도 마찬가지입니다 그들은 자신의 사진을로드하거나 빙 또는 이미 사이트에 있습니까? 우리는 더 많은 브라우저를 원한다 그들은 그 사진을 올리기 위해 사용 했습니까? 이제 우리는 관계가 있습니다

이제 크로스 테이블을 만들 수 있습니다 그것이 사진에있는 얼굴의 수이고 우리는 슬라이스 할 것입니다 그것들을 어떻게 제출하여 달리고 지금 우리가 할 것인가? 자동으로 우리와 함께하십시오 기본적으로 기능 모델 사용자에게 알릴 수 있습니다

그들은 테이블을 잡고 드래그 앤 드롭하여 결과를 얻습니다 지금은 가장 친숙한 모델이 아닙니다 비즈니스 사용자가 실제로 보지 않아야하는 것들입니다 더 쉽고 더 자명 한 것은 그것을 사용할 수 있고 돌아 오는 질문이 줄어 듭니다 우리는 조금 닦을 수 있습니다

모든 것을 없애자 기본 키와 모든 외래 키를 없애자 그들이 더 이상 필요 없기 때문에 우리는 최종 사용자가 보지 못하게하십시오 이제 모델은 최종 사용자에게 숨겨집니다 그들은 그것들을 만들기 위해 그것을 사용하고 있습니다

이름이 조금 더 일반적으로 비즈니스 사용자가이를 어떻게 볼 것입니까? 항상 가장 친절하지는 않습니다 나는 들어가서 이름 바꾸기를 원하는 것을 찾습니다 우리에게는 많은 테이블이 있습니다 많은 일이 있을지 모른다

당신은 이름을 바꾸고 싶습니다 이 일괄 이름 바꾸기를 추가하는 중입니다 기능과 나는 여기에 와서 그냥 시작합니다 나는 거기에 공간을 둔다 나는 그것을 운영 체제라고 부를 것이다

공백을 넣으세요 그곳에 그리고 하나 더 브라우저 이름 이것은 앞으로 나아갈 것이고, 나를 위해 모든 물건의 이름을 바꿀 것이다 그런 다음 다시 모델로 돌아갈 수 있습니다

당신은 그것이 시작되는 것을보기 시작합니다 더욱 쉽고 쉬워졌습니다 몇 가지 더 그것이 그렇게 만들자 자동으로 구운

간단하게 측정을 만들어 버립니다 사용자는 자신의 측정 값을 위에 작성할 수 있습니다 당신은 스스로 가질 필요가 없습니다 적어도 거기에 하나의 척도가 있어야합니다 그들이 끌어다 놓고 거기에 입을 것을 가지고있는 길

그래서 여기를 클릭하면 조치가 취해지며 내가 기본적인 것들을 여기에 추가 할 것을 알 수 있습니다 그것은 우리가 호출하는 것을 사용하고 있습니다 정말 쉽습니다 잘 얼굴 수 중 일부는 얼굴 수로 계산합니까? 그것은 각 이미지에 있습니다 우리는 평균 숫자를 할 것입니다

얼굴들 얼굴 평균 얼굴 수, 두 번 더 해보 죠 우리는 총 이미지 크기를 할 것입니다 그것은 몇몇의 평균 크기로 이미지 크기 크기 이제 우리는 몇 가지 방법을 만들었습니다

더 이상 기본 열을 필요로하지 않으므로 앞으로 나아갈 수 있습니다 숨 깁니다 그리고 우리는 완전한 모델은 여기 나는 깨끗하게하고 몇 가지 넣을거야 그래서 쉽게 찾을 수 있습니다

더 많은 사용자가 사용할 수 있습니다 그래서 우리는 이것을 호출 할 것입니다 – 우리는이 모든 것을 폴더에 넣을 것입니다 측정 항목 그래서 집에 가서 할 수 있습니다 오늘 오늘

데이터웨어 하우스를 지정하십시오 기본적으로 사용자가 앞서서 사용하기에 충분하도록 만드십시오 우리는 모든 세션 정보를 가지고 그것을 세션이라는 폴더 그리고 마지막으로 할 일은 위도와 경도입니다 위치라는 폴더에 있습니다

저장하십시오 그래서 지금 나는 우리에게 일종의 미리보기로 돌아온다 우리가 필요로하는 것의 미리보기 그리고 여기에있는 것들을 Excel에서 사용할 수 있습니다 여기에 옵션이 있습니다

그것은 당신에게 엑셀 파일을 생성합니다 바로 거기에서 생성을 시작할 수 있습니다 여기에 연결된 파일이 있습니다 모델 그것은 열어

그리고 준비가되면 현금 모드로 전환하고로드하여 수백 가지 사용자가 계속해서 타격을 시작합니다 그것 모두 여기에서 재사용 할 수 있습니다 조치를 취하고 총 얼굴 수를 이리 평균을 집어 봅시다 – 네, 평균 크기 이리

그리고 우리는 결과를 얻습니다 테이블로 되돌릴 수 있습니다 당신이 할 수있는 것들이 더 있습니다 여기에 사람들이 끌어다 놓을 때 적절한 시간에 적절한 포맷을 얻을 수 있습니다

당신은 거기 1000을 원해 거기에서 미리 정의해라 사용자간에 재사용 할 수 있습니다 그리고 네가하지 않으면 여기에 모든 사람들이 필요로하는 조치를 여기에 자신의 측정 값을 만드십시오 그들은 현지에서 활발히 활동하며 일을 연장합니다 그리고 그들 중 일부를 추가하십시오

통계도 마찬가지입니다 한 가지는 여기 있습니다 여기에서 재사용 할 수 있었습니까? 그것은 당신에게 당신이 사용할 수있는 많은 다른 기능들을 제공합니다 너에게 사용할 수있는 스위스 육군 칼을 준다 또한 원하는 양식을 자유롭게 펼칠 수 있습니다

보고서 조건 다시 한 번 당신이하는 일은 이러한 모든 도구와 사용자간에 재사용 가능 그들은 이것에 필요하다 포인트 그래서 우리는 여전히이 도구를 구축하고 있습니다 필요한 기능이 표시되지 않는 경우 이제 스크립트 뷰로 전환 할 수 있으며 전체 정의를주고 확장 할 수 있습니다

자동 완성 현금으로 전환하고 싶다면 모드 내가 여기에 올 수 있습니다 – 미안 해요, 가져 오기 모드 또는 Visual Studio에서 설정할 수 있습니다 비주얼 스튜디오 생성 너는 거기서 가서 일할 때 그것을 돌려 보낼 수있다 너 준비 됐어

이것을 확인하고 할 수 있습니다 다른 개발자와 동일한 코드 개발 모델 그래서 우리는 하나 더 갔다 고객이 여기 사용하는 경우의 사용 사례 이 모든 조각들을 하나로 통합하여 봉사하십시오 그들의 실제적인 끝 사용자 팀

얼마나 많은 고객과 계약을 맺었습니까? 하루에 약 5 시간 동안 복용합니다 그들은 약 1 개를 대략 저장하고 있습니다 70 개의 노드에서 약 900 개가이 데이터를 모으게합니다 그리고 일 왼쪽에 있습니다

그들에게는 데이터를 방출하는 수많은 소스가 있습니다 하나는 당신이 그들 중 누구라도 가지고 있다고 말하는 것입니다 실행 중, 실행 중입니다 그들은 달리고있다 스트리밍 중입니다

들어오는 데이터 그들은 신속하고 비용 효과적으로 그곳에 착륙시킬 수 있습니다 그 위에 hgi 스파크 몇 가지 소지품 기계 학습 과정에서 버그를 탐지하고보고하고 경고를 보내려고 시도하는 것 또한 비즈니스 로직을 적용하기 시작하는 방법으로 사용하십시오

그들은 그것을 갖기 위해 그것을 사용합니다 기존 데이터웨어 하우스로 사용됩니다 고객이 여기에 와서 고객이 여기에 올 수 있습니다 와서 자신의 시스템으로 추출하고 끌어 당깁니다 에있는 모든 세부 데이터에 액세스 할 수 있습니다

그곳에 참석할 사람들을 위해 빈번한 비즈니스 쿼리 실행 그것이 서비스가 들어오는 것을 확실히 알리는 곳입니다 이것은 우리 충돌 층의 역할을하며, 대다수가 올 것입니다 여기 창고에서 많은 압력을 받고 그것을 의미합니다 더 많은 것을 위해 필요한 것들을 사용할 수있게되었습니다

세부 검색어 및로드 및 기타 필요합니다 그래서 조금 더 많은 정보 여기에 최신 상태로 유지하는 방법 매일 당신은 당신의 데이터를 가질 수 있습니다 재 장전하지 않고 어떻게 현금에 추가합니까? 모두? 더 많은 것을 위해 두 번째 링크가있다

거기에 우리 팀 블로그는 세 번째입니다 우리는 새로운 기능에 대한 업데이트를 제공합니다 연습 >> 그리고 우리는 조금 우리가 발표 한 더 많은 새로운 제안 이번 주 우리는 새로운 보안을 추가했습니다

이번 주 능력 그렇게하면 보안에 대한 당신의 업데이트 내용 우리는하고있다 그래서 세션의 목표는 몇 가지를 보여주기 위해서 우리는이 모든 데이터에 대해 생각합니다 서비스

우리는이 모든 것들의 시작부터 데이터 임무 및 데이터 착륙 및 데이터 저장 및 표시 시도 최종 사용자에게 줄 수있는 방법 실제로 회사를 일으키는 서비스의 마지막 마일입니다 데이터웨어 하우징이 성공하거나 실패한 경우 노력 그것은 많은 돈을 썼다 사용자는 그것을 싫어합니다

그들은 결코 그것에 가지 않습니다 데이터를 가져 오는 기능이 너무 느립니다 논리는 개발자가 이해하는 방식으로 작성됩니다 최종 사용자에게는 이것이 의미하는 바가 전혀 없습니다 이 도구 중 일부를 사용하여 몇 가지 샘플을 제공합니다

어떻게 그것들을 함께 쌓아서 직원들은 고객이 무엇을하고 있는지 볼 수있는 능력을 갖추고 있습니까? 이번 달에 내가 무엇을 얻었습니까? 이번 달에 나는 무엇을 잃었습니까? 우리 소비량은 어떻습니까? 얼마나 빨리 우리가 찾는거야? 시스템의 이상? 일이 잘못 됐어? 채석장에 가서 우리에게 일어나는 일에 대해 사업 우리는이 패턴을 성공적으로 본다 많은 고객이 우리는 당신이 가지고있는 시간을 감사하게 생각합니다 우리와 함께 갔어

문의 사항이 있으시면 알려 드리겠습니다 질문에 대답하기 위해 여기에 머물러보십시오 그 외, 감사합니다

Preparing Students For Big Data Skills and Analysis | Stanford Professor Susan Athey

[음악] 그러니 교육자의 관점에서, 당신이 알고, 우리는 우리가 교육을 변경해야하는 방법에 대해 많이 얘기했습니다 에서, 당신이 알고, MBA 과정, 심지어 박사 학위를 통해 초등학교 위 컴퓨터 과학

아마 통계, 또는 박사 학위를 지출하지 않는, 아마 데이터에 대해 개념적으로 생각하는 충분한 시간을 낭비하지 않습니다 다만 알고리즘은 무엇이며 어떻게 마련 알고리즘을 향상시킬 수 있습니다 더 나은 착용감, 실제로는, 음, 난, 시작하는이 질문에 대답 할 수 경우에도 나는 조 명 관찰을했다? 나는 인과 성명을 발표 할 수 있도록 데이터의 구조는? 내가 가격을 변경 한 경우, 어떤 일이 일어날까요? 그리고, 당신은 만약 내가이를 변경하는 경우, I 경우,이 인터페이스는, 어떤 일이 일어날 것 알아? 알다시피, 당신은 더 높은 범죄와 지역에 더 많은 경찰관을 볼 수 있지만, 분명히, 경찰 증가는 범죄를 증가시키지 않습니다 그리고 사용자들은 어떤 의미에서 그것은 명백하고, 모두가 그것을 알고 정말 때 회색 영역을 이해하지만, 실제로 전문 지식 당신이 때 당신이 데이터로부터 뭔가를 배울 수는 없습니다 것은 매우 드문 기술이다 그것은 마스터 년이 걸리는 일이고, 그것은 뭔가 그 I 당신이 알고,의 일부가 될 것으로 판단, 모든 분야가 이상 반복하고 이상과 다른 방향에서까지 사람들이 전문가가 될 수 있습니다 [음악]