Migrating a Big Data Environment to the Cloud, The Untold Story (Cloud Next '19)

[음악 재생] SASHA KIPERVARG : CP142에 오신 것을 환영합니다 빅 데이터 환경을 클라우드로 마이그레이션, 미지의 스토리

내 이름은 사샤 키퍼 바그입니다 저는 LiveRamp의 클라우드 운영 담당 책임자입니다 그리고 저는 우리의 수석 소프트웨어 중 하나 인 Ben Podgursky와 왔습니다 엔지니어, 패트릭 레이먼드 우리 수석 제품 매니저 그리고 그는 인프라 포트폴리오를 소유하고 있습니다

네가 도리를 모두 잘 알고 있다고 생각해 나는 그 일을 끝내지 않을 것이다 LiveRamp에 대해 조금 전에 프레 젠 테이션의 고기에 들어가십시오 기본적으로 오프라인 데이터를 사용합니다 주소, 다른 PII, 기본적으로 – 그런 다음 우리는 그것을 식별하지 못하고, 그것을 변형 시키며, 그런 다음 채널 파트너에게 채널을 제공합니다

모두 당신에게 광고 벤은 기술적 세부 사항을 우리 회사는 그의 주제 중 하나에서 않습니다 그래서 제가 제일 먼저 말하고 싶은 것은 벤 (Ben)과 저는, Patrick은 정말 작은 그룹의 사람들입니다 마이그레이션을 담당합니다 그것은 팀의 팀입니다

우리는 대규모 인프라 소대, 대규모 엔지니어링 팀, 보안 전문가, 재무 전문가, 준수 전문가 그리고 그들은 모두 우리를 이주시키는 책임이있었습니다 우리는 지금 비행 중입니다 우리는 곧해야합니다 나는 또한 Google 팀 구성원을 보유하게됩니다

여기이 슬라이드에 있습니다 그것들이 우리 팀의 일원이기 때문입니다 우리는 그들을 그렇게 취급합니다 그리고 그들은 우리를 도와줍니다 그리고 그들은 우리 팀 팀의 일부입니다

LiveRamp에 처음 가입했을 때 회사를 클라우드로 마이그레이션하도록 요청했습니다 그게 실제로 의미가 무엇인지 전혀 몰랐습니다 이것이 단지 뭔가이기 때문입니다 아마 20 년에 한 번 또는 일생에 한 번 일어날 수 있습니다 그 일을하기위한 플레이 북이 정말로 없습니다

그리고 나는 모험을해야한다고 생각했습니다 한 단계로 시작하십시오 그리고 그것이 제가 한 것입니다 방금 질문하기 시작했습니다 나는 임원이 일렬로 맞춰 졌는지 알아보기를 원했다

나는 예산이 있는지 알아 내고 싶었다 승인 절차가 무엇인지 알아야했습니다 그리고 꽤 자주, 그 질문은 더 많은 질문을 이끌어 냈습니다 그리고 그것이 제가 취한 접근법입니다 나는 관객 중 많은 사람이 생각한다

유사한 도전을 받고있다 어쩌면 그게 오늘 네가 여기있는 이유 일거야 내가 취할 접근법에 대해 생각하기 시작했을 때, 내가 가장 좋아하는 아티스트에 대해 생각했다 리처드 제임스라는 Aphex Twin이라고하는 사람입니다 그리고 이것은 그가 말하는 곳의 시원한 인용구입니다

그가 음악을 만드는 방법에 대해 근본적으로 그가 여기에서 말한 것 그게 플레이 북을 버리는 것입니다 그는 어둠을 헤쳐나 가면서 그가 배우고 자하는 것까지 이런 식으로 느낀다 그는 자신의 접근법에 적응합니다 그리고 많은 사람들이 내 정원을 가지고 있다고 생각합니다

그들은 독특합니다 당신은 자신의 문제가 있습니다 그리고 하나의 크기가 모든 플레이 북에 맞지 않습니다 모든 것을 다룹니다 내가 발견 한 첫 번째 사실은 우리가 팀을 올바르게 이끌어 낼 필요가 있습니다

그리고 그것은 올바른 스킬 세트를 갖는 것을 의미했습니다 그것은 올바른 문화를 갖는 것을 의미했습니다 그리고 나는 우리가 이전에했던 일이 엔지니어링 팀에 속한 팀 이들은 매우 숙련 된 시스템 개발자 그룹이었으며, 대부분은 미안하지만 시스템 개발자가 아닙니다 시스템 관리자

그리고 그들은 최선을 다하려고 애썼다 하지만 그들은 실제로 공학에 통합되지 않았습니다 내가 느꼈던 방식으로 필요했다 우리가 갈 필요가있는 곳으로 가야합니다 그래서 우리는 팀을 조정했습니다

우리는 먼저 스크럼을 채택했습니다 일부 시스템 관리자가 팀을 떠났습니다 팀의 시스템 관리자 중 일부는 새로운 기술을 익혔습니다 우리는 시스템 엔지니어를 고용했습니다 우리는 LiveRamp 엔지니어링 팀의 다른 팀원들로부터 파견되었습니다

게다가 그리고 우리는 근본적으로 개발 팀이되었습니다 인프라에 중점을 둡니다 도전의 다음 부분은 보안과 거버넌스를 찾아 내려고 노력했습니다 이제 클라우드에 도달하기 위해, 당신은 승인을 받아야합니다

당신은 보안에 가야합니다 규정을 준수해야합니다 합법적으로 가야합니다 놀랍게도 놀랍지 만 그 과정이 없습니다 물론, 아무도 이것을하지 않기 때문에 존재했다

일생에 한 번 그래서 우리는 그 과정을 만들어야했습니다 우리는 관계를 수립해야했습니다 우리는 보안 작업 방법을 고안해야했습니다 그들이 모든 것을 검토 할 수있는 곳 우리는 일주일 단위로 일을하고 있었는데, 그곳은 추적당했습니다

Jira 티켓처럼 그리고 나서 우리는 사인을 얻은 다음 진행할 것입니다 그것은하기가 상당히 어려웠습니다 약 12 개월이 걸렸습니다 나는 우리가 환상적이라고 말할 수있어서 자랑 스럽다

보안 및 기타 거버넌스 팀과의 관계 오늘, 그 중 일부는 청중에 있습니다 다음 과제는 어떻게 우리가 마이그레이션에 접근해야합니다 그리고 저는 그것을 제품처럼 취급해야한다고 강하게 느꼈습니다 그리고 그것이 의미하는 바는 제품 관리자 누가 인프라를 이해했는지, 누구에게 접근했는지 전체적으로 생각한 제품의 관점에서 우리가 어떻게해야하는지, 어떻게 그것에 대해 의사 소통을해야하는지에 관해서 패트릭, 누가 그럴거야? 이것에 대해 더 깊이 이야기하는 것이 시작되었습니다

그는 자신의 초점을 보안 관리에서 변경했습니다 제품 관리 부서에 알려 주었고 그는 그 대부분을 처리했습니다 가장 중요한 결정 중 하나 우리가 이민 과정에서 만든 실행을 시작하기 전에 어떤 구름을 사용해야하는지 알아 내려고 노력했습니다 AWS에 익숙한 사용자가 많을 것입니다 그들은 일종의 900 파운드 고릴라입니다

그리고 2 년 전 우리가 처음 시작했을 때, 우리 회사도 AWS 경로를 따라 가고있었습니다 그리고 아마 우리는 한 달 안에 있었을 것입니다 AWS와 계약서에 서명하십시오 그리고 우리는 전에 가벼운 방식으로 GCP를 보았습니다 우리는 동부 해안에서 GCP를 사용하는 일부 팀을 운영하기까지했습니다

그러나 모든 사람들은이 결정이 실제로 내려 졌다고 생각했습니다 또 다른 가능성은 없었고, 나 자신도 포함되었다 그리고 저는 CFO 인 Warren Jenson으로부터 이메일을 받았습니다 그가 말하길, 우리는 GCP를 보았습니까? 우리가 수백만 달러에 정말 가깝기 때문에 거래 그리고 나는 빨리 대답했다

그렇지만, 그렇다 그날 밤에 보낸 후, 나는 불편 함을 느꼈다 내 대답과 함께 내가 제대로 할 수 있다고 생각하지 않았다 왜 자세한 대화에서 그를 대표 하는가? AWS를 선택하고 GCP를 자세히 검토하지 않은 이유는 무엇입니까? 그리고 다음날 아침에, 나는 들어왔다

나는이 모든 수석 기술 팀을 모았다 인프라에 대해 질문하고 동일한 질문을했습니다 그리고 나는 같은 반응을 되찾았다 고 생각한다 나는 나 자신을 느꼈다 그것은 우리가하지 못했던 것이다

최근 데이터를 보았습니다 그리고 여러분 모두는 구름이 정말로 빨리 움직인다는 것을 압니다 신제품은 신속하게 개발되고 제공되며, 우리는 지난 6 개월 동안 그것을 보지 않았습니다 그래서 우리는 일주일 정도 시간을 들여서 새로운 기능 세트에서 그것이 우리 회사를 위해 원했던 것과 어떻게 연관되어 있는가 그리고 그 주 후에 우리가 돌아 왔을 때, 우리 모두는 거기에 뭔가 있다는 것을 깨달았습니다

그런 다음 더 많은 조사가 필요했습니다 그리고 나서 우리는 또 다른 3 ~ 4 주 동안 출발했습니다 Kubernetes에 깊이 잠수하려면 큰 데이터 스택, 비용, 모든 차원 그리고 우리는 그것에 집중했습니다 우리가 발견 한 것은 GCP 우리 회사를위한 훨씬 나은 솔루션이었습니다

모든 차원에서 비용이 포함됩니다 그래서 이것을 침몰 비용의 오류라고 부릅니다 AWS에 큰 투자를했다는 것입니다 그리고 우리는 그 정면을 정말로 오랫동안 진행했습니다 그리고 사실입니다, 우리는 많은 시간을 낭비했고, 많은 시간이 내려갔습니다

그 길 그러나 그것이 우리가 마음을 바꿀 수 없다는 것을 의미하지는 않습니다 그래서 우리가 GCP에 대한 결정을 내렸을 때, 우리에게는 또 다른 도전이있었습니다 소규모 엔지니어링 팀과 소규모 인프라가있는 팀, 상대적으로 말하기 우리 중 수천 명이 없습니다

누가 기존의 데이터 센터를 관리 할 것입니까? 샌프란시스코에 공동 거주하고 있습니다 우리는 약 3,000 대의 서버를 보유하고 있습니다 100 페타 바이트의 Hadoop VMware의 많은 것들 우리는 개발 팀이 미래에 집중하기를 원했습니다

우리의 과거 또는 현재 그래서 우리가하기로 결정한 것은 거기에 나가서 시도했습니다 우리를 위해 그렇게 할 수있는 회사를 찾으려면, 그 전체 작업량을 감당할 수있는 우리는 미래에 중점을 두었습니다 시리우스라는 회사를 발견했습니다 마이클 포터와 스캇 라이트

나는 그들이 청중 어딘가에있는 것 같아 그들은이 비전에 우리를 팔았습니다 사실 지난 한 달 동안, 그들은 데이터 센터의 모든 작업을 수행했습니다 우리 팀을 도와 주면서 우리 팀을 돕고 있습니다 GCP에 중점을 둡니다

일단 우리가 그 문제를 해결하면 거기 우리가 해결해야 할 두 가지 다른 것들이 있습니다 우리를 침몰시킬 수있는 두 가지 네 함선도 가라 하나는 비용 추적이었고 다른 하나는 비용 추적이었습니다 거버넌스 결정이었다 비용 추적 측면에서 우리는이 철학을 가지고 있습니다

각 개발 팀이 필요로하는 자아를 위해서 우리는 그들이 환경을 신속하게 돌리기를 원합니다 아무에게도 묻지 않고 혼자서 그러나 물론, 그것은 그들이 그 때 그들은 환경을 전적으로 회전시킬 수있었습니다 자신에

그리고 그들은 수백만과 수백만을 일으킬 수 있습니다 누구도 알지 못하는 자원 달러로 우리의 예산을 동기화합니다 그래서 우리는 초점을 맞추기 위해 다른 PM 팀을 구성하기로 결정했습니다 그 특별한 문제에 관해서 그리고 그 노력은 바로 지금 열매를 맺고 있습니다

우리는 개발자에게주는 균형이 적절하다고 느낍니다 자유는 있지만, 동시에 경고와 관계가 있습니다 해당 팀에서 직접 재정 지원을받으며, 그 도전들이 다루어지는 곳 거버넌스는 상당히 흥미 롭습니다 우리는 중요한 교훈을 배웠습니다

이전에 보안과 함께 12 개월간 당신이 클라우드에서 빨리 갈 수 있다고해도, 즉시 배포 할 수있는 경우에도, 귀하가 승인을 받았다는 의미는 아닙니다 제품을 실제로 빨리 꺼내십시오 따라서 신속한 거버넌스 결정없이, 정말로 중요하지 않습니다 그래서 우리는 엔지니어링 팀에서 다른 팀을 구성했습니다 우리는 수락 한 사람을 고용했습니다

그의 이름은 [INAUDIBLE]입니다 그리고 우리는 우리가 호출하는 프로세스를 만들었습니다 기본적으로 의사 결정을 묶는 케이크 이 Cake 프로세스를 통해 모든 거버넌스 팀으로부터 그리고 우리는 12 개월 무언가를 떠났습니다 제품을 허용하는 결정을 내리는 데 2 ​​주까지 생산에 들어가기 그래서 배운 주요 교훈의 측면에서, 내가 너와 나눌 수있는 것, 내가 너에게 생각해 주길 바라는 것 너 자신을 위해, 번호 하나, 마이 그 레이션 거대한 다차원 동물입니다

그것들은 문제들 중에서 가장 좋고 도전적인 것입니다 그게 네가하고 싶은 일이라면 너는 확실히 올바른 곳에서 나는 당신의 팀을 바로 시작하고 충분한 질문을 할 것이라고 말할 것입니다 문제를 완전히 이해할 때까지 게임 북을 사용하지 마십시오 아무것도 가정하지 마십시오

귀하의 데이터와 새로운 데이터를 지속적으로 재평가하십시오 그리고 침몰 비용의 오류에 유의하십시오 그리고 그것이 당신의 의사 결정에 어떻게 영향을 미치는지 변화하는 프로세스 또는 채용을 두려워하지 마십시오 그 과정에서 새로운 역할을 위해

가능성이 높습니다 전혀 다른 것입니다 그리고 마지막으로, 틀린 것을 두려워하지 마십시오 당신은 실수 할 것입니다 무언가의 진실을 찾으십시오

옳기보다는 오히려 성공으로 당신의 길을 되풀이하십시오 그래서 나는 마이크를 벤쪽으로 넘길거야 지금 누가 엔지니어링 문제에서 당신을 말할 것입니까? 원근법 [박수 갈채] BENJAMIN PODGURSKY : 안녕하세요

나는 Ben Podgursky입니다 나는 엔지니어 야 저는 데이터 인프라 팀에서 일하고 있습니다 우리 이주에 대해서 이야기 할 것입니다 소프트웨어 엔지니어의 관점에서 GCP로 나는 단지 강조하는 것으로 시작하고 싶다

나는이 과정에서 수석 건축가가되었다고 주장하지는 않는다 이것은 엔지니어 수십 년이 걸렸습니다 그러나 그들은 실제로 이주를 실제로 바쁘게하고 있습니다 오늘, 나는 그 중 하나입니다 마이그레이션을 설명하기가 어렵습니다

LiveRamp의 판매에 대해 간략히 설명하지 않고 우리가 어떻게하는지 마일 높은 볼 우리는 고객 데이터 세트를, 식별자 데이터를 받아 이것을 전달합니다 두 가지 방법으로 광고 기술 생태계에 먼저 배치 전달 시스템으로, 또한 실시간 키 값 전달 시스템을 사용합니다 나중에 우리 환경에 대해 더 이야기 할 것입니다 짧은 버전은이 처리의 대부분을 차지합니다 큰 Cloudera Hadoop에서 발생합니다

데이터 센터의 클러스터 다른 대부분의 응용 프로그램은 VMware 가상 시스템에서 실행되었습니다 요리사가 제공 한 것입니다 CoreOS 지각 구조 클러스터 실시간 키 값 제공 우리가 만든 자체 개발 한 오픈 소스 시스템이었다 하둡 파이프 라인에 대해 한 가지 강조하고 싶습니다

많은 회사에서 Hadoop은 부가가치입니다 그들에게는 제품이 있습니다 그들은 제품을 판매합니다 그들은 제품에서 로그 아웃되며, 그런 다음 기계 학습을하고 그로부터 가치를 얻으십시오 그건 LiveRamp가하는 것이 아닙니다

우리는 기본적으로 ETL 회사입니다 그리고 우리가 Hadoop 파이프 라인을 통해 데이터를 이동하지 않는다면, 우리는 실제로 많은 제품을 판매하지 않습니다 그리고 이로 인해 마이그레이션이 매우 어려워졌습니다 나는 나중에 그것에 대해 더 이야기 할 것이다 작년에이 모든 일이 우리의 온 프레미스 데이터에서 일어났습니다

우리 하드웨어의 대부분은 2,500 노드 Cloudera입니다 Hadoop 클러스터 밖에 큰 클러스터가 있습니다 하지만 꽤 큰 90,000 CPU입니다 사샤가 말했듯이, 약 100 페타 바이트의 원시 스토리지

VMware 클러스터에서 Hadoop 이외의 작업이 발생했습니다 500 개 이상의 VM에 대해 이 중 많은 부분이 논리 작업 전용이었습니다 Hadoop 환경에 대해 매일 약 8 테라 바이트의 데이터가 송수신됩니다 매우 약 압축 후 계산, 필터링, 정렬 등 모든 작업을 수행합니다 그래서 결국 하드웨어는 꽤 중요한 하드웨어였습니다

우리가 옮겨야 할 환경 나는 확신 할 수있는 것에 대해 이야기하지 않을 것이다 우리는 구름으로 움직입니다 사샤는 그 중 일부를 다뤘습니다 이유는, 당신이 듣게 될 것입니다, 1000 다른 회담 이번 주 브레이크 아웃 세션

우리는 빨리 움직이기를 원했습니다 Google의 엔지니어는 개발자가 아닌 개발자가되기를 원했습니다 역사적인 재 enactors 우리는 규모를 조정해야했습니다 클라우드 기반 도구가 필요했습니다

일반적인 이유 마찬가지로, 나는 많은 시간을 보내지 않을거야 그것이 당신이 여기있는 이유이기 때문에 GCP를 선택하도록 설득합니다 그러나 우리가 한 의사 결정 과정에 대해 이야기하고 싶었습니다 분명히, 우리는 기술에 관심이 있습니다

GKE는 큰 도움이되었습니다 당시 AWS는 좋은 Kubernetes 제공 물을 가지고 있지 않았지만, 우리는 실제로 제 3자를 찾지 못했습니다 설득력있는 제물 우리의 실시간 배송 팀은 다른 모든 제품보다 우월합니다 객체 저장이 필요했습니다

GCS는 다른 것들과 경쟁적이었습니다 가격은 좋았습니다 우리는 다른 사람들보다 더 좋은 가격을 가지고 있습니다 하지만 내가 강조하고 싶었던 점은 정말 우리를 위해이 선택을 한 사람들 이었습니까? Google과 대화 할 때 우리는 우리의 문제를 해결하고자하는 엔지니어에게 우리는 전체 목표가 우리를 팔 것이라고 생각하지 않았습니다 전문 지원 시간

전문적인 지원에 문제가 있다는 것은 아닙니다 훌륭합니다 하지만 우리는 근본적으로 우리의 문제에 답하고 우리를 도우려고했습니다 그리고 그것은 전체 이민을 통해 우리에게 자신감을주었습니다 그들은 우리를 돕고, 나란히있을 것입니다

문제를 통해 그리고 그것은이 과정에서 절대적으로 머물러 있습니다 그래서 우리가 우리가 이것을 현실로하기로 결정했을 때, 우리는 그것을 몇 가지 질문으로 쪼개었다 우리 시대의 건축은 무엇입니까? LiveRamp의 최소 실행 가능 클라우드 아키텍처는 무엇입니까? 우리는 어떻게 거기에 도착합니까? 클라우드에 구축 – 쉬운 일은 아닙니다 그러나 당신은 신선한 시작하게된다

클라우드 기반 기술로 시작할 수 있습니다 회사가 운영되지 않는 경우 큰 문제는 아닙니다 그러나 그것은 우리에게 사실이 아닙니다 우리는 많은 양의 인프라를 가지고있었습니다 마이그레이션하는 동안 계속 실행해야하는 프로세스가 있습니다

그리고 마지막으로 우리는 무엇을 향해 무엇을 만들고 싶습니까? 우리는 우리의 인프라가 첫날에 완벽해질 것입니다 첫날 구름이 완전히 덮일 수는 없습니다 그러나 우리는 성공을 향해 스스로를 위로하고 싶습니다 그렇다면 인프라가 처음에는 어떻게 될 것입니까? 마이그레이션 할 개발 팀 요청 힘들고 엔지니어에게 물어보십시오 그들이하는 동안 프로세스에 많은 불확실성이 추가됩니다

Next와 같은 회의에서 말하는 것은 너무 섹시하지 않습니다 하지만 드롭 인 대체물이 있었던 곳 우리 인프라의 GCP 로의 직접 번역, 우리는 일반적으로 리프트 측면에서 실수를 범했고 우리는 GCP를 가지고있었습니다 즉, 일부 제품은 매력적이었습니다 그리고 매우 직설적 인 번역을 제공했다 마이그레이션하는 동안 전환하는 것이 적절하다고 느꼈습니다 그래서 저는 변하지 않았고 변하지 않은 것을 통해 이야기 할 것입니다

그래서 무엇이 바뀌지 않았을까요? 우리의 온 프레미스 환경은 단일 논리 내부 회로망 사설 IP를 통해 전달되는 내부 서비스, 대부분 콘솔을 통해 조정되었습니다 앱 팀에서는이 점을 동일하게 유지하는 것이 중요하다고 느꼈습니다 그들은 단일 네트워크가 필요했습니다 해당 네트워크를 통해 서로 대화해야하는 앱

그리고 나중에, 특히 다리 건너편에서 더 이야기하겠습니다 우리의 네트워크 사이 모든 대용량 데이터 처리는 Cloudera Hadoop에서 발생합니다 그것은 변하지 않습니다 나는 보안 및 사생활 보호 결정에 대해 이야기하고 싶지 않다

대단히 중요하지만, 우리가 한 일의 거대한 부분 클라우드는 개발자에게 권한을 부여하지만, 고 가용성의 글로벌 배포를 쉽게 만듭니다 실수로 보안 침해 그래서 우리 작전 팀은 방화벽 통제권을 유지했습니다 허가의 관점에서 규칙들, 근본적으로, 고객 데이터를 안전하게 유지하지 못한다면, 우리는 실제로 많은 제품을 가지고 있지 않습니다

그래서 우리는 무엇을 바꾸 었는가? 전제, 우리는 우리의 모든 데이터를 HDFS에 거의 저장했습니다 그래서 우리의 HDFS는 실제로 꽤 기름칠 기계입니다 이 마이그레이션을 시도 할 때까지 그러나 그것은 매우 스트레스가 많았고 유지하기가 어려웠습니다 모든 업그레이드가 데이터 손실의 기회임을 알았습니다 또는 일종의 대참사

우리 회사가 성장함에 따라 더 많은 고객과 더 짧은 고객을 확보함에 따라 SLA가 짧아지면 어려워지고 어려워졌습니다 Google 제품 팀이 환경을 업그레이드했기 때문에 일이 잘못되었을 때 중단 시간을 원합니다 그래서 우리는 결국 기본적으로 막 붙어 있지 않았습니다 업그레이드가 가능합니다 따라서 GCP를 사용하고 나면 모든 영구 데이터에 GCS를 사용합니다

저장 우리는 지속적인 데이터를 위해 HDFS를 사용하지 않습니다 전제 조건으로 Chef를 사용하여 모든 VM을 프로비저닝합니다 우리는 Chef에 많은 응용 프로그램 로직을 내장했습니다 그리고 우리는 실제로 Chef 클라우드로 그것은 잘 작동하지 않았고 우리는 GKE가 훌륭한 제품이라고 느꼈습니다

일부 팀은 GKE를 사용하고 있습니다 우리는 모든 VM을 전환하는 것이 적절하다고 생각했습니다 우리가 이전 할 때 GKE로 넘어갔습니다 마지막으로 Google Bigtable이 우리의 자국 핵심 가치 데이터 저장소를 대체 할 수있는 훌륭한 도구입니다 우리는 모든 실시간 웹 트래픽에이를 사용할 것입니다

그래서 나는 개인적으로 대부분의 시간을 보냈다 Hadoop 클러스터를 GCP로 변환합니다 그래서 나는 그다지 많은 것을 설명하지 않고 싶다 전체적인 이야기 일 수도있는 아키텍처는, 그러나 가치에 대해 이야기하고 어떻게 해방하는지 그것은 구름 속에있다 2,500 대의 서버를 보유하고 있다면 너와 함께해야 할 일

그들은 모든 데이터를 가지고 있습니다 업그레이드를 테스트하려면, 주말에는 2,500 대의 서버를 구입할 수 없으며 규모 테스트를 수행 할 수 없습니다 그런 다음 다시 돌려주십시오 당신은 가지고있는 것을 테스트해야합니다 dev 클러스터를 설정할 수 있습니다

준비 클러스터를 설정할 수 있습니다 그러나 규모 테스트는 실제로 할 수 없습니다 따라서 GCP에서 GC VM을 사용하는 경우 사실이 아닙니다 인프라를 가동시킬 수 있습니다 기존 인프라 스트럭처를 다운시킬 필요가 없습니다

그것을 밖으로 시험하기 위하여 그리고 롤백은 쉽습니다 GCS를 사용하기 때문에 모든 것이 더 쉽습니다 그래서 이것은 우리의 능력을 정말로 4 배로했습니다 이 인프라에서 반복 할 수 있습니다

그리고이 환경을 무언가와 유지하는 것으로 바뀌 었습니다 스트레스가 많고 고통 스럽다 그것은 실제로 다시 재미 있습니다 그렇다면 GCP는 어떻게 될까요? 몇 가지 마이그레이션 전략이 있습니다 기업에 많은 고객이없는 경우 돈을 벌지 않으면 너 자신을 벗어날 수있다

전송 장치를 사용할 수 있습니다 전국으로 배송 할 수 있습니다 그런 다음 다시 켜십시오 모든 것이 작동하는 몇 주 후에 우리는 영업 팀과 점검했고, 고객, 우리는 돈을 벌어 그리고 그들은 꺼지는 생각에 행복하지 않았습니다

그래서 우리에게 천천히, 아주 조심스럽게 옵션을 남겼습니다 조율 된 마이그레이션 프로세스 그래서 우리는 우리가 필요한 것을 알고 시작했습니다 적어도 마이그레이션 프로세스 중에, 우리는 하나의 논리적 네트워크가 필요했습니다 GCP와 데이터 센터간에 팀은 속도를 낼 수 있어야했습니다 GCP의 서비스 온 프레미스 데이터 센터로 마찬가지로, 데이터베이스 호출을 공유 할 수 있어야했습니다

따라서 하나의 큰 네트워크에서 전체 회사를 덤핑하는 것을 피하려면, 우리는 헤어졌다 우리는 공유 VPC 네트워크로 분할했습니다 팀은 자체 서브 네트워크를 가지고 있으며 회전 할 수 있습니다 서비스를 제공합니다 팀은 GCP를 통해 다른 팀과 커뮤니케이션 할 수 있으며, 데이터 센터로 돌아갈 수 있습니다

우리는 클라우드 상호 연결로이 작업을 수행했습니다 그리고 이것은 정말로 중요했습니다 나는 강조하는 것이 중요하다고 생각한다 우리는 GCP에 생산 어플리케이션을 가지고 있었다 처음부터

스테이징 환경을 설정할 필요가 없었습니다 그런 다음 하루 만에 회사를 삭감했습니다 우리는 GCP를 운영하는 주말부터 서비스를 제공 받았습니다 그래서 이것은 법원의 도전 중 하나를 회사로 수출합니다 우리가 데이터 센터 GCP에서 가지고 있던 제한된 출구를 다루었습니다

데이터 센터 내부 – 그것은 거대한 데이터 센터입니다 우리는 엄청난 대역폭을 가지고 있습니다 그러나 우리는이 모든 데이터를 가져올 수 있도록 최적화하지 않았습니다 데이터 센터의 우리는 하루가 끝나면 약 50 기가 바이트로 제한되었습니다 GCP로 분명히 우리는 이것을 다시 설계 할 수있었습니다

우리는 더 큰 연결을 구축 할 수있었습니다 그러나 우리는 데이터 센터를 업그레이드하는 데 수백만 달러를 낭비하지 않았습니다 우리가 그것을 끄려고 할 때, 단지 6 개월 정도 유지해야합니다 전송 장치가 제대로 작동하지 않는 이유 우리는 LiveRamp의 데이터 중 아주 작은 부분만을 차지합니다 프로세스는 실제로 콜드 데이터입니다

우리는 끊임없이 고객으로부터 수입품을 받고 있습니다 데이터를 지속적으로 새로 고침 우리의 데이터 소스에서 데이터를 GCP로 전송하는 데 며칠이 걸릴 수는 없습니다 처리를 재개하십시오 우리가 명심해야만했던 또 다른 것 클라우드의 데이터 이탈은 매우 비싸다는 것입니다

클라우드 공급자 – Google뿐 아니라 – 모든 종류의 마약상 입구 Ingress는 완전히 무료입니다 맞습니까? 거기에 모든 데이터를 입력하십시오 훌륭합니다

그러나 테라 바이트 급의 데이터를 빼내고 싶다면, 그것은 매우 비싸게되고, 특히 그것이 일상적인 일 처리 파이프 라인의 일부라면 그래서 50 기가비트 그리고 당신은 50 기가비트처럼 좋다고 말할 수 있습니다 누구에게나 충분할 것 같은데 그리고 그것은 입력 데이터를위한 것입니다

우리는 경기에서 10 테라 바이트의 데이터를 얻습니다 고객 데이터 및 물건 그리고 우리는 하루에 10 테라 바이트 이상을 배달하지 않습니다 고객에게 전달합니다 그러나 우리가하는 일의 성격 때문에, 우리는 거대한 분산 조인을 가지고 있습니다

우리의 데이터 처리 파이프 라인의 중간에 우리는 하루에 500 테라 바이트를 읽고 쓰고 있습니다 연결을 끊으면 팀이 매우 쉽습니다 잘못된 위치에서 완전히 상호 연결을 포화시킬 수 있습니다 이것은 복잡한 문제입니다 우리는 그것으로 전체 이야기를 채울 수 있습니다

그러나 짧은 버전은 우리가 내부 서비스를 팀을위한 우선 순위 방식으로 데이터를 복사합니다 팀은 서비스를 위해 인터커넥트를 자유롭게 사용할 수 있었다 및 데이터베이스 호출을 포함하지만 데이터 인프라 팀 모든 제출 된 사본을 처리했다 우리는 그 (것)들을이 서비스에 복종시키기 위하여 그 (것)들을 요청했다 이를 통해 생산 데이터 전송의 우선 순위를 결정할 수 있습니다

짧은 SLA를 가진 제품, 우리가 약속 한 제품 매우 짧은 시간 내에 고객에게 전달됩니다 저온 데이터가 전송되면 우선 순위를 낮출 수 있습니다 그리고 결국 그것은 일어날 것입니다 정말 비판적으로 또한 주어진 대역폭에서 누가 우리 대역폭을 사용했는지에 대한 우리의 통찰력 시각 따라서 우리 팀이 파일을 직접 복사하는 경우, 당신은 TCP 덤프 주위에 몸을 피워야 할거야

2시에 누가 인터커넥트를 사용하고 있었는지 알아 내기 위해 AM 어제 밤, 그래서 모든 것이 실패했습니다 대신 Datadog 대시 보드를 살펴볼 수 있습니다 그리고 오, 앱 X는 오전 2시에 대역폭의 xyz를 사용하고 있었다고 말합니다 이러한 제약 조건은 전체 구조를 결정했습니다 데이터 이전에 대한 우리는 우리 파이프 라인의 끝에서 시작했습니다

애플리케이션을 마이그레이션 할 것입니다 HDFS에서 직접 데이터를 가져 오는 대신, 그들은 인프라 데이터 복제기를 호출 할 것입니다 서비스는 HDFS에서 입력을 복사하는 것을 처리합니다 다시 GCS로 그리고 평소와 같이 그들을 소비 할 것입니다

업스트림 응용 프로그램이 이전되면, 더 이상 복제를 수행 할 필요가 없습니다 데이터는 기본적으로 GCS에 존재하지만, 우리는 그 과정을 계속할 것입니다, 꼬리 처리 파이프 라인의 머리로 그리고 그 곳에서 우리는 현재 중도에 대한 회사로 있습니다 그것을 통해 우리가 여전히 우리가 연결을 포화시키지 않았다 그러나 이것이 우리가 이전 한 방법의 전반적인 구조입니다

그래서 그것은 매우 요약 된 버전입니다 우리가 GCP에 어떻게 접근하고 있는지 마지막으로 가장 흥미로운 질문은 다음에 오는 것입니다 우리는 어떻게 일을 다시 엔지니어링 할 것인가? 클라우드 기반으로 실제 업무에? 나는 경찰에 나가서 너에게 말할거야 우리는 아직 실제로 그 질문에 대한 강한 대답을 가지고 있지 않습니다

실시간 쿼리를 위해서는 최소한 Bigtable이 필요합니다 Bigtable에 실시간 쿼리가 포함됩니다 상당량의 BigQuery가 포함됩니다 임시 쿼리의 경우 경량 데이터의 데이터 흐름 변형 하지만 내가 모르는 주된 이유는 개발자 주도형이 될 것입니다

우리의 목표는 인프라 팀을위한 것입니다 더 이상 이러한 결정을 내릴 수 없습니다 인프라가 도움이 될 것입니다 인프라는 사람들을위한 도구를 구축 할 것입니다 그러나 하루가 끝날 무렵에는 구름 속에 있었고, 개발자가 인프라를 프로비저닝 할 수 있음을 의미합니다

적절한시기에 필요할 때 필요합니다 그래서 목표는 내년에, 잘하면, 일부 응용 프로그램입니다 팀이 6 시부 터 취한 방법에 대해 이야기 할 것입니다 60 분의 BigQuery로 바꿨습니다 응용 프로그램 또는 Bigtable 스크립트 또는 뭔가 하지만 우리가 말할 수는 없으니까

아직 거기에 없다 그래, 그게 내가 가진 전부 야 나는 물건을 패트릭에게 돌려 줄 것이다 고마워, 모두들 [박수 갈채] PATRICK RAYMOND : 안녕하세요, 고마워요

제 이름은 패트릭 레이먼드입니다 인프라 스트럭처의 제품 관리자입니다 LiveRamp에서 소대 이 마이그레이션에 대해 이야기하고 싶습니다 사샤가 말했던 것처럼, 우리는 생각하고 싶었습니다

이것에 대해서는 조금 다르게 어쩌면 PMO 또는 프로젝트 관리에 특정한 것보다, 제품 자체와 같이 생각하면됩니다 그래서 당신은 사샤와 벤의 주제를 들었다 이것은 거대하고 복잡한 문제입니다 그리고 일들이 많이 바뀔 것입니다 그래서 조금 혼란 스러울 수 있습니다

그리고 그것은 약간 압도적 일 수 있습니다 그리고 당신은 당신이 네가 네 인생을이 왼쪽에 보냈다는 느낌, 당신은 아마이 디자인의 삐걱 거리는 소리에 익숙 할 것입니다 그러나 이것은 우리 프로세스와 매우 유사합니다 처음 시작했을 때, 우리의 모든 질문 대답이 여기 왼쪽에 나온 것처럼 느껴졌습니다 그러나 우리가 팀과 반복하기 시작하면서, 우리는 우리가 가고 있지 않다는 것을 깨달았다

이 질문에 대한 완벽한 대답을 찾으십시오 그래서 우리는 시간이 지남에 따라, 우리는 더 많이 오른쪽 방향으로 움직였습니다 그리고 일이 훨씬 더 분명 해지기 시작했습니다 그래서 아마도 이것은 아마도 중요한 일이라고 생각합니다 이게 당신 회사가 뭔가라면 너 한테 일어난다

준비하기 때문에 어딘가에 뛰어 들기가 가장 좋습니다 의사 결정을 시작하십시오 Ben은 또한 팀이 의사 결정을 내리고 있다고 언급했습니다 자신의 인프라에 대해 그래서 우리는 또한이 구별에 대해서 생각하고 싶었습니다

데이터 센터에서 클라우드로 마이그레이션 할 때, 물론, 당신에게 유용한 도구가 많이 있습니다 그러나 모든 문제를 즉시 해결할 수는 없습니다 당신이 들었던 것처럼, 우리가하고있는 것들 중 일부는 순수한 상승과 교대 일뿐입니다 그래서 우리가하지 않는 것이 중요합니다 모든 이해 관계자에게 곧 약속한다

당신이 구름으로 이동할 때, 당신의 모든 문제가 해결됩니다 왜냐하면 그것은 사실이 아니기 때문입니다 그리고 우리는 브랜드로 끝나지 않을 것입니다 새로운 회사 그래서 우리는 문제의 범위를 정확하게 정하고 싶었습니다

이해 관계자들이 이해할 수있는 우리가 조사한 것 그래서 나는 지금 조금 이야기하고 싶다 이해 관계자의 의견 수렴에 대해 이 아이디어를 중심으로 우리가 한 일은 우리가 제공 할 가치를 명확히함으로써 우리는 또한 일을하지 않는 비용에 대해서 이야기하고 싶었습니다 그리고 주로 우리가이 기능을 수행 한 기능입니다 그래서 아마도 위의 성명서 여기 모두가 깊이 이해할 필요가있다

당신이하려는 일 이해 관계자가 누구인지 알아야합니다 아마 어리석은 짓을하는 것 같아요 하지만 너는 스스로에게 많은 질문을 할 수있다 누가 인프라를 소비하는지, 누가 당신에게 보안을 제공 할 예산을 보유하고 있습니다 규정 준수 승인 클라우드에서 작동해야합니까? 그리고 그것들은 당신의 이해 관계자들입니다

그리고 그들은 모두 다른 것들에 관심이 있습니다 따라서 서로 다른 방식으로 정렬하는 것이 중요합니다 그리고 우리의 임원 팀에게는 우리가 그들을 도울 수있는 방법에 관해 그들과 이야기하고 싶었다 미래의 목표, 우리가 도울 수있는 방법 그들은 이윤을 높이고 앞으로 나아 간다 회사 이니셔티브와 함께 우리의 개발자들은 새로운 인프라를보다 나은 방법으로 활용하는 방법, 자신의 배를 선장하여 자신의 제품을 만들 수 있습니다

그리고 우리 제품 팀은 제품에 대한 통찰력을 원합니다 비용에 대한 세분화 된 이해를 원합니다 그리고 제가 말씀 드렸듯이, 일을하지 않는 비용 우리에게는 계속 된 비용이있었습니다 온 프레미스 데이터 센터의 지속적인 비용 부족이 있습니다

더 복잡하고 제한적인 제품이 있습니다 기존 데이터 센터에서 작업 할 때 그리고 우리가 이것을 사교적으로 이해할 때, 우리는 Ben이 말한 것처럼, 사람들은 우리가 계속 돈을 벌기를 원했습니다 그래서 우리는 제품을 선적해야했습니다 그래서 우선 순위를 정하는 방법을 알아야했습니다 이해 관계자들이 주위에 정렬

그리고 당신에게 규모의 아이디어를주기 위해서입니다 우리가 우선 순위에 대해 이야기하고있는 것, 우리는 5 개국에 22 개의 팀을두고 있습니다 아마도이 방에있는 많은 사람들과 매우 비슷할 것입니다 전 세계에 걸쳐 이러한 유형의 우선 순위를 유지합니다 1 년 넘게 할 일은 매우 어렵습니다

하지만 가능합니다 따라서 이것은 매우 명백한 진술입니다 그러나 모든 것이 최우선 순위 일 때 각 팀마다, 우선 순위를 매길 수는 없습니다 따라서 운송을 계속해야한다는 것을 알고 있습니다 우리는 모든 사람이 그들에게 최우선 순위

그러면 우리는 그걸 어떻게해야합니까? 우리는 어떻게 그 일을합니까? Sasha가 언급 한 것처럼 모든 팀 스크럼을 어떤 형식이나 방식으로 사용하십시오 각 팀이하는 일 중 하나 그들은 비즈니스 가치 회의를 가지고 있습니다 그리고 제품 관리자로서 저는 참석하는 데 관심이 있습니다 모든 비즈니스 회의 및 비즈니스 가치 회의, 그들이 작품 가치를 이해하도록 돕는다 우리가 할거야

나는 회의에 올 것이고 말할 것이다 일의 비용, 이야기 일을하지 않는 데 드는 비용에 관해서도 도움이된다 엔지니어링 팀은 그들이 할 수있는 것을 이해합니다 클라우드에서 이익을 얻으십시오 여기에서 가장 큰 것은 실제로 존재해야합니다

참석할 많은 모임이 있습니다 하지만 모두가 이해할 수 있도록 거기에 있어야합니다 가치 그리고 거기에 계신다면 약속하지 않는 것과 같은 것에 대해 이야기 할 수있다 네가 지킬 수는 없지만 큰 이점에 대해 이야기해라

OC 시간 단축, 반복 증가 신제품의 속도, 투명하게 비용을 드러냄 엔지니어가 내게 말한 것이죠 나는이 모든 모임에 순찰을 가면서 너는 너의 모든 시간을 헌신적으로 보낼 수 없다는 것이었다 비즈니스에 도움이되므로 빌드하는 것이 중요합니다 노력을 밑에서부터

그래서 마음과 마음을 이길 수 있다면 엔지니어링 팀 중 그것들은 우선 순위를 정하는데 도움이됩니다 그것은 당신을 위해 훨씬 쉽게, 너의 구석에서 싸우는 사람들이 많기 때문에 우선 순위가 정해 지도록하려면 이 일을하는 유일한 사람이되기보다는 그리고 나는 과도한 의사 전달이 정말 귀중합니다 이것은 사샤가 제가 배운 것을 도운 것입니다 당신은 기본적으로 요점에 도달해야합니다

당신이 방에서 성가신 사람인 것처럼 느껴지는 곳 모두가보기 싫어하고, 나는 그 시점에서 생각한다 아마 요점에 다다를거야 귀하의 메시지가 분명 해지고 반복해서 반복했다 그리고 또한 기억하는 것이 중요합니다 이러한 모든 팀 및 이해 관계자와 함께, 그렇지 않은 경우 우선 순위에 대해 이야기하면 다른 사람이 될 것입니다

그리고 새로운 제품을 가진 사람들이 많이있을 것입니다 새로운 아이디어, 그리고 새로운 수익 창출 방법을 제시합니다 그러니 나가서 모든 사람이 이것을 정기적으로 이해합니다 그래서 우리는 주간지 모임에 참석함으로써 그렇게합니다 정기적 인 제품 회의 참석, 우리가 할 수있는 기회가 있다면 어디에서나 발표 할 수 있습니다

우리는 또한 많은 위험에 대해서 이야기합니다 분명히, 끊임없이 일어날 것입니다 그래서 너는 그 일들보다 앞서 나가고 싶어 그 (것)들을 완화하는 당신의 계획을 개발하십시오 그래서 우리가 시도한 한 사람의 쇼처럼 불가능합니다

잠시 동안,하지만 당신은 도움이 필요한 사람들을 고용해야합니다 당신은이 아이디어를 나타냅니다 그래서 우리는 훌륭한 팀을 고용했습니다 그것은 작은 팀이지만 열렬한 두 사람 이 메시지를 전달하는 데 도움을 준 사람 이러한 일정이 가능할 것입니다 그리고 제가 언급 한 것처럼, 우리가 생각하기 전에 정말 다른 관점에서 계획하는 것에 대해서도 마찬가지입니다 우리는 가능한 한 마른 상태로 유지하려고했습니다

우리는 무슨 일이 일어나고 있는지 이해하기에 충분한 계획을 세우고 싶었습니다 그러나 우리는 크게 방해받지 않으려 고했습니다 우리는 개발자들이 이 문제를 해결하는 것이 문제에 가장 가깝습니다 그들은 가장 많은 접촉을 가지고 있으며, 그들은 이런 일을하는 가장 좋은 방법을 우리에게 말해 줄 수 있습니다 그래서 우리는 모든 프로세스가 계획을 세우는 것이 기본적으로 배경이었습니다

정보 수집 장소였습니다 우리가 진행하고있는 진전을 이해하기 위해서, 그러나 그 과정 자체는 무거운 짐을 덜어줍니다 수 많은 스프레드 시트와 업데이트에 관한 회의가 아닙니다 그리고 우리는 우리 자신을 팀으로 생각합니다 그것은 다른 모든 팀 사이의 결합 조직입니다

그래서 우리는 정보의 올바른 균형을 찾고 싶었습니다 이해 관계자들은 실제로 무엇을 했습니까? 이 다른 옵션들과 비교하여, 알고 싶어합니다 우리가 계획을 위해 사용할 수있는 것 그래서 우리는 물었습니다 그리고 이것이 그들이 원하는 것입니다

믿기지 않게 간단합니다 그러나 누가 일하고 있는가? 얼마나 진전 되었습니까? 그리고 얼마나 많은 사람들의 거대한 카운터 마감일까지 남은 일 이것은 회사 전체에서 광범위하게 출판됩니다 누구나 그것에 접근 할 수 있습니다 그리고 우리는 이것이 업데이트되었는지 확인하려고 노력합니다

이것은 실제로 자체적으로 정기적으로 업데이트됩니다 그것은 완전히 자동화되어 있습니다 그러나 우리는 이것이 노출되어 있는지 확인하기를 원합니다 그래서 우리는 월 1 회 이그 제 큐 티브 스테이크 홀더 회의뿐만 아니라, 다시, dev에 회의 및 제품 회의 이 전체 프로세스의 핵심은 Sasha입니다

이전에 Cake 프로세스를 언급했다 거버넌스 승인 우리는 프로젝트 계획을 수행하는 방법과 동일한 방법으로 생각했습니다 그래서 우리는 정말 간단한 방법을 개발했습니다 Jira 제품 로드맵

마이그레이션하는 각 팀마다 티켓이 있습니다 매주 우리는 일을 정리 한 목록을 기록합니다 우리는 알고 싶어합니다 그들은 모든 응용 프로그램에 대해 일련의 하위 작업을 수행합니다 그들이 이주하고 있다는 것을

그리고 그들은 티켓을 업데이트합니다 이것이 모든 22 개 팀의 단일 진실입니다 우리는 무슨 일이 일어나고 있는지 정확히 알고 있습니다 그들은 우리에게 업데이트를 제공합니다 그리고 그 정보는 모두 다음과 같습니다

미끄러 져서 우리 대시 보드에 완전히 넣었다 자동으로 그래서 이것은 우리에게 정말로 도움이되었습니다 그런 결정은 한 곳에서 녹화되며 모두에게 제공됩니다 보다 그래서이 모든 것들이 훌륭합니다

그러나 변화는 정기적으로 일어난다 그래서 우리는 작업 우선 순위를 낮출 수있는 방법이 필요했습니다 우리는 물건이 완전히 옆으로 빨리 갈 수 있다는 것을 압니다 새로운 개인 정보 보호 규정이 생길 수 있습니다 아무거나는 일어날 수있다

우리 사업만큼이나 그렇습니다 에 따라 영향이있을 것이라는 점에 동의합니다 우리가하는 변화와 모든 사람에게 앞으로 나아가는 것에 동의한다 우리는 그것으로 완전히 멋져요 다시 Jira 프로젝트를 사용합니다

변경 사항이 발표되면 기록됩니다 Jira 티켓에 넣은 다음 모든 이해 관계자 팀과의 만남 결정을 내리고, 우선 순위가 결정되며, Jira 티켓에 기록됩니다 모두가 볼 수 있도록 다시 게시됩니다 일어날 일에 대해 의문의 여지가 없습니다 모두가 변화와 모든 것을 알고 있습니다

영향을 이해합니다 그래서 그것은 당신을 위해서도 변할 것입니다 그리고 나는 괜찮다고 생각한다 나는 그것이 일어날 것이라는 것을 당신이 안다는 한 오래 생각합니다 그리고 당신은 그걸 준비하고 있습니다

그렇다면 정말로 그렇게해서는 안됩니다 너무 어려워 그래서 실제로 들었습니다 미안, 나는 조금 앞으로 뛰어 올랐다 그래서이 부분도 생각하고 있습니다

우리 팀에 대한 우리의 생각 앞으로 올 모든 변화에 대비할 준비가되어 있습니다 그래서 그들은 자체 인프라를 소유하게 될 것입니다 우리가 시작했을 때부터 큰 변화입니다 그들은 이전에 없었던 일들에 책임이 있습니다 새로운 팀을 시작하기위한 프로세스에 대해 생각할 때 그들의 일, 우리는 그들에게 많은 시간을 보내 게한다

도구를 알게되고, 훈련을 받고, 이미 개발 팀과 협력 전에 이것을 통해, 그리고 실제로 새로운 기술로 무슨 일이 일어나는지 이해하십시오 그들이 사용할 거라고? 그래서 우리는 그 시간의 우선 순위를 정해야합니다 우리는 모든 팀에 투자해야합니다 그리고 가장 중요한 것은 이것이 아마도 프로젝트에서 자주 언급하지 않는 것 그러나 우리는 우리 팀을 정말로 염려합니다 우리는 우리가 많은 것을 요구하고 있다는 것을 이해합니다

키보드에 손을 댄 사람입니다 매일, 그리고 그들은 만드는 사람들입니다 이 변환이 가능합니다 그래서 우리는 그들의 일에 감사하는 시간을 많이 보냅니다 그리고 우리는 우리의 경영 팀, 제품 팀, 엔지니어링 팀은 모두이 작업을 인식합니다

그래서 충고의 큰 조각 – 당신의 프로젝트로 곰팡이를 깨뜨리는 것을 두려워하지 마십시오 우리는 개인적으로 파티하기를 좋아합니다 그런 거대한 프로젝트 – 지속적인 1 년 프로젝트와 같습니다 사람들은 매우 피곤하고 일종의 떠남에 대해 생각하며, 아니면 그들은 떠날 것입니다 그러나 우리는 모두가 완료되는 작업의 이점을 이해합니다

그래서 저는 Kelsey Hightower의 인용문을 닫고 싶습니다 우리가 서명 한 직후, 우리는 고객 회의를 가졌습니다 우리가 참석했다 그리고 우리는 그가 우리가 유일한 회사라고 말했다 그걸 들었다고 스스로 들려서 거대한 파티를 열었 어

구글과 계약을 맺은 후 그래서 이것은이 과정에 대한 우리의 생각을 구현합니다 일어나는 모든 것은 축하받습니다 우리 셋이 여기까지 올거 같아 오늘이 자리에 서게되어 매우 운이 좋았습니다 LiveRamp에서 위대한 팀

그리고 나는 그들 모두에게 고맙다고 말하고 싶다 매일 이것을 가능하게하기 위해서 [음악 재생]

Introduction to Advanced Statistical Techniques and Its Applications | Data Analysis -Great Learning

여러분 안녕하세요 고급 통계 모듈에 오신 것을 환영합니다

이 모듈에서, 우리는 분산 분석, 선형 회귀 분석 분석, 주성분 분석 요인 분석 이 기술들 그들은 analytics 산업에서 광대하게 적용됩니다 그것들은 분석 산업의 기반이됩니다 몇 가지 예를 들어 보겠습니다 간단한 예 그게 마케팅이야

매니저는 고객에 할인은 판매를 증가하고 있습니다 아닙니다 예를 들어 보겠습니다 10 % 할인 수준이 좋습니다 또는 20 % 할인 수준이 좋거나 30 % 할인 수준입니다 좋은가요? 다음 중 어느 수준으로 증가시킬 것인가? 판매

판매에 어떤 영향을 미칩니 까? 이 질문에 어떻게 대답합니까? 그래서, 아마도 당신은 도구, 분산 분석이라고합니다 마찬가지로, 당신이 이해하고 싶다면 어떤 채널이 당신에게 가장 높은 점수를 주는지 증가의 관점에서 수익 너는 광고하고 있는다고해라 TV, 신문, 디지털을 통한 제품 채널 그리고 어떤 채널을 이해하고 싶습니까? 너에게 더 많은 것을주고있다

수익 그럼 너 아마 보았을거야 ANOVA와 같은 도구의 혼합 회귀 분석 예를 들어 당신이 원하는 것을 말하십시오 비율 스포츠 선수

예를 들어 평가하고 싶다고합시다 IPL 타자 또는 IPL 중계자 예를 들어 타자의 경우에 대해 말하십시오 너는 생각할 수있다 귀뚜라미의 점에서의 물건, 예를 들면 얼마나 타자 파업 률, 50 대 수 100의 수

4의 숫자, 6의 수 이 모든 것이 데이터를 구성합니다 이 데이터가 있으면 지금해야합니다 타자를 어떻게 평가합니까? 그런 시나리오에서 당신은 다음과 같은 특정 도구 주요 구성 요소 분석 이 특별한 도구 에서 광범위하게 적용된다

등급 도시, 그들의 생활 조건, 또는 인간 개발 지표 이렇게 많은 다른 분야 이 특정 기술을 적용 할 수 있습니다 하지만 네가 스포츠 분석에 대해 이야기하고 싶습니다 선수를 평가하고 싶다 등급 의미 선수들에게 더 많은 돈

그래, 그래서 스포츠 분석이 관심있는 분야라면 너는 신청할 수있다 이 모든 개념들도 거기에 있습니다 괜찮아 자, 예를 들어 당신은 사람들이 내 브랜드를 어떻게 인식하고 있는지 알고 싶습니다 괜찮아

귀하의 브랜드는 특정 속성 및 사람들 브랜드 평점 그 속성은 또한 아주 중요한 것입니다 예를 들어 보겠습니다 몇 가지가있는 자동차 산업 자동차 호화로운에서 시작 자동차 보통의 자동차 종류 자동차도 생각할 수 있습니다 말하자면 가족 차는 전형적으로 구성한다, 너 뭐라고 말하고, 안전하고, 경제, 낮은 정비, 신뢰할 수 있습니다

괜찮아 이것들은 우리가 원하는 특성들입니다 가족 용 자동차에 대해 설명합니다 그럼 이제 너는 어때? 주어진 브랜드가 같은 속성 집합 낮은 유지, 경제, 신뢰성, 운동가 다운, 옥외, 거친, 호화로운 브랜드가 정확히 어디에있는가 고객의 마음 속에 자리 잡고 있습니다

브랜드가 어떻게 인식되고 있는지 알고 싶다면 당신은 기술을 배우고 싶다 요인 분석 괜찮아, 그래서이 특별한 모듈에 우리는 당신을 도울 기술을 다루게 될 것입니다에서 다른 사람들보다 약간의 우위를 점합니다 그래서 이것을 적용하면 이 기술들에 당신의 기술을 보여주십시오 업계에서 당신은 분명히 종류가있다 나머지는

우리는 심지어 재무 분야의 예 신청 방법 마케팅 분야에서 이러한 개념을 어떻게 적용 할 것인가? 범죄 분야에서 어떻게 이러한 개념을 적용 할 수 있습니까? 범죄가 다른 범죄가되고 있음을 기억하십시오 분석을위한 잠재력이 높은 산업 괜찮아 보건 산업 분야에서 어떻게 이러한 개념을 적용 할 것인가? 그래서, 이러한 특정 도구는 산업 또는 특정 분야이지만 광범위하게 적용됩니다

어디에나 재무 예를 들어 보겠습니다 금융 예를 들어보고 싶은 경우 1 년 기계 장치 금리, 2 년 기계 장치 금리, 3 년 계좌, 4 년 계좌 시장 상대적인 그 이자율은 움직이고 있습니다

어느 악기가 함께 움직이는 지 어느 악기가 함께 움직이지 않는지 또는 금리에 대해 갖고 싶은 생각이나 이 계좌에 대한 이자율 네가하는 일은 너를 달리는거야 모델은 주성분 분석으로 불린다

괜찮아 그래서 어디에서나 이 기법들이 적용되고 때때로 이 모델들의 출력은 다음과 같이 취해진 다 다른 모델과 동일합니다 예를 들어 다른 모델의 경우 요소 분석의 경우 구성 요소 분석 당신은 주 구성 요소 점수라고 불리는 출력을 얻습니다 요인 점수

어느 것을 사용 하는가? 에서 클러스터링 분석 또는 회귀 분석에서 다시 등등

Introduction to the Hadoop Technology Stack

Hadoop 기술 스택의 과정에 오신 것을 환영합니다 빠른 입문서가 있습니다

이 과정의 개발자 및 관리자를위한 반경 도움말 기술 우리는 Hadoop 분산 컴퓨팅 프레임 워크의 개념을 살펴볼 것입니다 우리는 Hadoop이 어떻게 작동하는지, 어떻게 그리고 왜 그것이 다른지를 살펴볼 것입니다 전통적인 컴퓨팅 시스템에서 우리는 또한 기업이 처리 할 수있는 대중적이고 유용한 대형 데이터 도구 데이터를 하둡에서 효율적이고 효과적으로 처리 할 수 ​​있습니다 잠재 고객 및 비즈니스 전문가 개발자에게 기술적 혜택 제공 관리자 Hadoop 개발자 및 관심있는 사람 Hadoop이 무엇인지 파악하고 물론 하둡 상용 배포판을 살펴보고 다양한 도구와 Hadoop 시스템을 시작하는 방법을 알려드립니다 빅 데이터 여행을 시작하기에 유용한 비디오 시리즈를 찾아보십시오

수업 내용 전체를 빠르게 살펴보십시오 그래서 여기 제트기는 다음 시리즈에서 기대할 수있는 것의 빠른 스냅 샷입니다 동영상을 보려면 Hadoop을 빠르게 살펴보고 배급의 다양한 머리 어떻게 그들이 가지고있는 나이로 빠르게 깊은 잠수 우리는 전통 건축물에서 모피를 ​​가져 와서 우리가 Hat HDFS 아키텍처 즉, 이름 노드 데이터 노드 보조 노드와 다양한 다른 구성 요소 분산 된 시스템에서의 병렬 교차 (crossing) 다양한 플러그인과 어떻게 원사가 플러그인을 설치하면 MapReduce에 대한 간략한 개요를 볼 수 있으며 MapReduce 애플리케이션을 다른 언어로 작성하는 방법을 살펴보고 우리는 Hadoop으로 데이터를 가져 오는 방법을 살펴볼 것입니다 물을 이해하는 방법을 이해해야합니다 이 다음에 신속하게 들어갈 것입니다 또는 다양한 도구를 특종 flume uz HBase 및 기타 다양한 데이터 가져 오기 도구 우리는 또한 유형에 들어갈 것입니다 아키텍처 하이브 인터페이스 카탈로그 등 우리는 아파치 스톰 스파크 Guzzi보세요 그리고 신속하게 보안 mahout과 좋은 clunk 결론 머리를보고 여기서 어디로 가야 해? 시작하자

Analyzing Big Data with Twitter – Lecture 1 – Intro to course; Twitter basics

좋아, 내 생각 엔 우리가 마티 허스트라는 내 이름을 시작해서 큰소리로 환영 할거야 트위터로 데이터 분석하기 우리가 그것을 온라인에 넣을 수 있도록 강의는 그렇게 할 것 같지 않습니다

당신이 말하는 어떤 것도 마이크에 의해 픽업 될 것입니다 그들을 반복하여 기억하도록 노력할 것입니다 클릭 소리 나는 그렇게 생각하지 않는다 나는 소리를 내지 않는다 그래서 많은 사람들이 방에 있고 우리는 그 사실에 대해서 조금 이야기 할 것입니다

조금 전에 나 그러나 우리가 가기 전에 나는 단지 흥미있는 주제에 뛰어 들고 싶었다 하지만 시작하기 전에 범죄에 내 파트너 인 길 라드 미슈를 소개하고 싶습니다 여기 그는 트위터의 사람입니다 UC 버클리와 트위터에 대한 수업을 시작 했으므로 Gilad에게 감사드립니다 그와 나는 오늘이 강연을 함께 할 예정이다

그것을 흩뿌 리다 그래서 나는 약 15 분 간 갈 것이다 약 20 명 정도면 강의 계속하겠습니다 트위터 란 무엇인가? 트위터 란 무엇인가? 그래서 그것은 마이크로 블로깅 사이트입니다 여러분은 여러분의 상태를 마지막으로 무엇이 었는지 업데이트 할 수 있습니다

140 자 이하로 말하면서 다음과 같이 개발 된 앱이 있습니다 그것을 오랫동안 만들어라 나는 밖에있는 청중을 위해 너를 반복하고있어 그게 훌륭한 요약이고 왜 내가 여기 그렇게 설명하지 않는거야? 달리 메시지를 게시하는 누군가의 출력 트위터로 알려진이 사람은 사라 실버 맨이라는 사람입니다 이 유명한 코미디언은 내가 그녀가 그녀가있는 유명한 유명한 트윗이라고 추측한다 당신의 친척들이 당신을 몰아 넣을 때 타이핑해서 눈을 감고 그냥 흉내 내라

Woody Allen 영화에서의 대화입니다이 짹짹을 본 사람이 있습니다 이 트윗에 대한 응답으로 유명한 응답이 나온 사람은 누구나 이 트윗에 Woody Allen에 대해 들어 본 사람이 있다면 괜찮습니까? 들어 본 적이없는 학생들의 문화적 참조를 참조하십시오 그래서 실제로는 당혹스럽게 자주 발생하므로 이것에 관한 것들은 당신이 언급 한 상태이므로 원래의 것 중 하나였습니다 트위터의 아이디어는 유비쿼터스 상수 업데이트를 내가 뭐하고 있는거야, 내가 생각하기에 여기서 사라 실버먼이 당신의 평범한 사람은 코미디언이지만 그녀는 그녀가 아마도 약간의 시간이 걸렸을지라도 성능뿐만 아니라 이것은 그녀가이 트위터를 쓴 후에 일어난 일입니다

짹짹은 누군가가 상태를 만들 때 함께 온 이름입니다 트위터에 대한 업데이트는 다른 누군가가이 트윗과 중요한 것을 본 것입니다 트위터는 메시지 나 트윗이 공개되어있어 전 세계의 어느 누구도 볼 수 있습니다 여전히 놀랍기 때문에 다른 사람이 볼 수 있고 또한 메시지를 게시 할 수 있습니다 응답 및 그래서 누군가는 또한 유명 인사 및 그녀 인 Mia Farrow를했다 시도에 대해 썼다

반응이 없다 Mia Farrow가 누군지 알고 있다면 어떤면에서 관련이있는 사람 Woody Allen에게이 사실을 알게되면 정말 매력적입니다 기본적으로 서로를 모르는 유명 인사는 대화를 가질 수 있습니다 이 메커니즘을 사용하여 이것을 공개하고 이유 중 하나 트위터와 마이크로 블로깅 사이트가 왜 새로운 커뮤니케이션 형태라고 생각합니다 우리는 그 전에는 결코 보지 못했던 사람들을 모르는 사람들 아마도 세상에 알려진 그 서로가 결국에는 서로간에 공간과 시간을 초월한 대화 소개되었으므로 대화 도구이기도합니다

그건 당신이 언급하지 않은 것이고 그것은 실제로는 아니었던 것 같아요 처음 트위터를 시작했을 때 반드시 트위터의 창시자가 예견 했었습니다 대화식 도구가 될 것입니다 트위터 예 그래서 아이디어를 공유하는 방법과 또한 다음과 같이 언급했습니다 다른 사람들과 다시 만나는 사람들에 의해 공동체를 형성하십시오

또 다른 부분은 사람과 사람 사이를 연결하는 또 다른 중요한 부분입니다 커뮤니티를 구축하여 관계를 구축하는 방법입니다 사람들과 다른 사람들 사이의 공헌은 가능합니다 뉴스는 잘 생기고있다 실제로는 내 바로 다음 슬라이드는 어제 오늘이 슬라이드를 만들었지 만 오늘의 종이였습니다

수요일 뉴욕 타임즈 나는 여전히 선사 시대에 있기 때문에 실제로 읽었습니다 나는 아침에 종이를 써서 온라인에 가야만했다 나는 측면의 작은 엄지 손톱을 보았다 그러나 만일 당신이 매우 바닥에 보면 뉴욕 타임스의 첫 페이지에 여름에 짹짹 짹짹 그것은 그의 짹짹 tweeting은 첫 페이지에 있었을 수도 있습니다 어제의 종이는 그것이 종이의 문화적 부분에 얼마나 보편적인지를 보여줍니다 뉴스의 나머지 부분은 우울한 물건 이었어

그래서 나는 이것이 너의 것이라고 생각한다 요점은 뉴스를 생성하는 방법이며 뉴스를 널리 알리는 방법이기도합니다 미안해, 네가 말한대로 그것이 유익한 일종이 된거야 당신이 뉴스를 퍼뜨릴뿐만 아니라 뉴스를 만들어 낼 수 있다면 사이클하십시오 내가 그들이 얼마나 절름발이인지에 대해 그들이 말하고있는 노래에 대해 몰랐다는 것을 인정한다

나는 모른다 그러나 당신 모두는 아마이 노래와 명백하게 대통령에 관해 안다 오바마는 나처럼 노래에 대해서도 몰랐다 이 일을하는 사람들에 대해 만들어진 사람들의 몽타주 나에게 전화하는 것은 그래 맞는다 어떻게해서든지

그러나 요점은 그것이 조용한 점이다 프론트 페이지가 뉴욕 타임즈에 관한 기사였던 뉴욕 타임을 창출했습니다 트위터가 전 세계에 정보를 전파하는 데 사용되고 있다는 사실 국제적으로 그 영향력있는 그래서 나는 그 생각 이게 우리가 공부할 수있는 아주시기 적절한 주제라는 걸 당신이 아는 어떤 것을 말하고 있습니다 이 현상과 당신은 그것이 트위터가 아닌 다른 소셜 미디어가 아니라는 것을 압니다 잘이 큰 영향을 미치고 있지만 우리는 좋은 친구가 있습니다 트위터와 우리는이 수업에서 트위터를 공부하고 있습니다

Francisco는 매우 편리하고 트위터에는 확실히 많이 있습니다 우리를 점령해라 정말로 빨리 통계를 보자 인터넷과 미국 생활 ​​연구를위한 퓨 센터 (Pew Center) 이것들은 미국의 통계 일 뿐이며 길 라드 (Gilad) 통계이며 이것은 매우 최근의 사용에 관한 것입니다 인터넷 사용자 중 전체가 아닌 미국인의 비율 인 비율 인터넷을 사용하는 미국인은 큰 비율이지만 나는 체크하지 않았다

가장 최근의 숫자와 이것은 방금 나온 아주 최근의 숫자를 보여주는 것입니다 2012 년에는 인터넷 사용자 중 15 %가 Twitter를 8 % 사용하고 있습니다 그들이 매일 사용한다고 주장하고 이것은 퓨 센터의 자체보고 데이터입니다 숫자가 늘어나고 있으며 꾸준히 증가하고 있으며 이는 큰 비율이며 이 숫자는 읽기가 어려울 수 있지만 더 많은 고장입니다 성별이 현저한 남성과 여성조차도 매우 최근에 그걸 사용하는 젊은 사람들의 증가는 18 ~ 29 이전에 실제로 그것보다 전문적인 사용을하고 있었고 조금 더 나이 든 군중 그들이 보여주는 다른 인터넷 사용에 비해 흥미로운 성별 고장 여기에 마우스 커서가 생기지 않지만 백인이 아닌 히스패닉이 있다는 것을 알 수 있습니다 인터넷 사용자의 12 %와 검은 색 비 스페인계 28 %의 별 2 개가 표시됩니다

유의미한 차이와 히스패닉 14 % 그리고 이것은 매우 특이한 숫자입니다 인터넷 응용 프로그램을 사용하여 백인이 아닌 그룹이 지배적 인 그룹임을 알 수 있습니다 전에 그런 통계를 보지 못했고 꽤 균등하게 실제로 30k 미만의 가구 소득에 걸쳐 약간 분산 됨 다른 것보다 높지만 크게 다르지 않고 예쁜 통계적으로 다른 교육 수준에 고르게 분포 차이와 도시와 교외는 시골과 여전히 도시 인터넷 사용자의 약 20 퍼센트 도시에 꽤 귀엽다 다시 우리는 갑자기 증가 추세를 보았습니다

젊은이들의 최근 경향 트위터를 사용하면 최근에 그들과 함께 올해 인기를 얻었습니다 실제로 그 통계치를 2011 년 18 %에서 31 %로 2012 년 2 월에 백분율로 올라서 차갑게되었습니다 트위터의 역사와 나는 트위터 사람들과 다른 사람들이 아마 할 수있는 것을 안다 더 나은 직업이지만 이것은 트위터 역사를 가진 내 개인적인 경험 일뿐입니다 나는이 회의에 참석하여 웹 로그와 약 9 개월 후 일어난 2007 년 소셜 미디어 트위터가 시작되었고 우리는 기조 연설 중 하나가되도록 Evan Williams를 초대했습니다

연사와 트위터가 Southwest Conference에서 Southwest Conference에서 시작했습니다 그는 그 당시의 경험에 대해 이야기하고있었습니다 트위터에 대한 소식을 듣고 온라인에서이 비디오를 볼 수 있습니다 트위터에 관한 초기의 이야기 그래서 그는 재미있는 사실에 대해 이야기합니다

그리고 인상은 처음부터 변덕스럽게 시작된 부업 프로젝트였습니다 잭 도르시 (Jack Dorsey)는 잠시 동안이 아이디어가 머리 주위를 덜컹 거리는 것처럼 보였습니다 에반 윌리엄스 (Evan Williams)에 따르면 그들은 그것을 시작했고 나는 항상 이것을 기억한다 에반 윌리엄스 (Evan Williams)가 제 친구와 동료 일종의 트위터가 그들이 전에 이것을 말하고있는 돈을 벌기로되어 있다고 말하다 트위터는 광고를 판매하고 있었고 나는 항상 누군가의 아이디어라고 말했습니다

그게 멋질거야 왜 그렇게 돈에 집착하는거야? 사람들이나 당신은 기술 배경에서 오지 않는 사람들을 알고 있습니다 그것은 항상 그들이 생각하고있는 것이고 나는 항상 멋진 것에 관한 것입니다 당신이 알고있는 기술은 항상 돈을 벌기 위해 시작하는 것이 아닙니다 이제 트위터가 돈을 벌어들이는 방법에 대해 많이 듣게 될 것입니다 후속 강의는하지만 때로는 기술 전망 및 비즈니스 관점 및 분명히 Jack Dorsey의 아이디어 적어도 2007 년 에반 윌리엄스 (Evan Williams)가 유비 쿼터스 상태 메시지는 당신이 말한 것과 사람들의 공동체입니다

당신이하고있는 질문에 대답하는 것은 그 첫 번째 생각이었습니다 tagline이었고 그 다음 남서쪽으로 남쪽으로 갔을 때 음악과 기술을 둘러싼 회의에서 그들은 놀랐던 사용을 발견했습니다 그 (것)들은 그러나 사람들에 그들의 상태를 공유하기 위하여 인 대중적이었다 회의에서 공유 된 실제 공간에있는 사람들이 자신이 무엇인지 설명했습니다 실시간으로 작업하고 서로 토론하고 공유 할 수 있습니다

일어난 일의 상태와 나는이 수업에서 차가울 줄 알았다 우리 강의의 측면에서 트위터 피드를 가지고 있지만 우리는 두 가지 다른 것을 가질 수 없다 동시에 화면을 볼 수 없으므로 그 때 지진이 정말 재미 있었을 때마다 당신이 알고있는 베이 지역의 지진은 사람들이 꽤 자주 일어난다 즉시 트위터에 올리면 경험을 공유 할 수 있습니다 왜냐하면 if 캘리포니아 지진에서 왔어

그렇지 않다면 재미 없어 그러나 우리는 그들을 즐겁게 여기며 사실에 대해 이야기하는 것을 즐긴다 우리가 보통 그렇기 때문에 살아남으니 그는 주변의 개념에 대해서도 이야기했습니다 그의 용어가 아니었지만 우리 연구자들이 말한 친밀감 사람들이 네가 뭘하고 있는지 알고 있다는 걸 알기 때문에 지루한 당신은 그들이 아침 식사를 위해 무엇을 가지고 있었는지에 관해 안다 그러나 다른 한편으로 만일 그것이 있으면 당신이 가까이있는 누군가가 없이는 그들과 가까이 머물 수있는 방법입니다

그들을 괴롭히지 않으면 안됩니다 우리가 다른 기술로 보았던 그런 종류의 일은 트위터가 처음에는 주변의 친밀감을지지하지만 그 점은 좋은 도구 였고 그는 또한 그들은 API가 프로그래밍을 어떻게 제거했는지에 놀랐다 페이스 북이 이미 성공적이었던 것 같지만 다른 하나는 놀랐다는 사실에 대해 놀랐습니다 정말 좋은 답이 없기 때문에 답장에 @ 기호를 사용했습니다 거기에 내장 된 메커니즘은 숨겨진 직접적인 반응이었고 사용법에 따라 유기적으로 응답 한 @ 기호는 다음과 같이 작성해야합니다

그 도구를 더 잘 지원하고 많은 의사 소통과 매우 대중적이 된 커뮤니티 자료는 도구에서 더 유기적으로 발생했습니다 그리고 만약 내가 그 중 하나를 잘못 gilad 당신이 아는 한 올바른 말하십시오 나 그러나 나는이 이야기에서이 꽤 정확한 요약이 더 많이 있다고 생각한다 그래서 그것을 온라인에서 봐 달라 나는 다른 역사가 있다고 확신한다 트위터하지만 난이게 맘에 든다

II는 몇 년 전부터 그렇게 들었다 트위터에 대해 잠시 후 연구 플랫폼으로 계속해서 이야기 할 것입니다 그러나 내가 그것을하기 전에, 그리고 내가 길라드에게 그 일을 맡길 때를 제외하고 나는 그렇게 할 것이다 꼭대기에서 시작 해요 안녕하세요

저는 모두 길라드입니다 트위터 검색 나는 실제로 얼마나 많은 사람들이 트위터를 가지고 있는지 팀을 관리한다 거룩한 담배를 피우세요 일 년 전에 얼마나 많은 사람들이 계좌를 가지고 있었습니까? 거룩한 연기가 두 번 좋아요 그래서 제가 많이 말한 것은 당신에게 친숙 할 것입니다

그리고 제비 뽑기는 Marti가 그렇게 그들에게 약간의 stats를 추가하지 않을 것이다 트위터를 가장 빠르고 간단한 방법으로 생각하고 싶습니다 의사 소통을하고 많은 사람들이 내게 동의하는 것처럼 보입니다 그래서이 숫자는 몇 달 전인 6 월이나 7 월 동안 우리가 성장한 수치입니다 이후 우리는 1 억 4 천만 명의 활성 사용자와 활성 사용자를 가졌습니다 이 사용자 대다수가 사용하는 사이트 나 앱에 정기적으로 로그하는 사용자 우리의 웹 사이트뿐만 아니라 우리의 모바일 클라이언트 중 하나 그래서 기본적으로 확인 귀하의 휴대 전화에서 트위터 얼마나 많은 사람들이 귀하의 휴대 전화에서 트위터를 사용하는지는 알겠습니다

대다수의 사용자가 약 60 %의 사용자를 차지하는 것으로 나타났습니다 미국에서는 우리가 나중에 볼 수있는 많은 국제적 사용법이 있습니다 우리 사이트를 방문하고 적극적인 사용자가 아닌 트윗을 읽는 사람들이 더 많이 있습니다 그들은 짹짹 울지는 않지만 3 배나 많은 활약을 읽는 서비스입니다 사용자와 오늘 진행중인 많은 짹짹이 있습니다

네가 몇달 전에 하루에 4 억 명이 되었다면 우리가 샌프란시스코에 앉아있는 약 천명의 직원들 중 일부는 우리를 방문 할 것입니다 나중에 올해 또는 내년에 괜찮 았으므로 트위터의 데이터에 관해서 이야기하겠습니다 트위터에는 가장 일반적인 유형의 데이터라고 생각되는 데이터 유형이 많이 있습니다 이 텍스트에 관해서는 트위터에 많은 텍스트가 있으므로 여러분 대부분이 있습니다 익숙한 트위터의 타임 라인이 있고이 짧은 것들로 구성됩니다

메시지 및 그래서 당신은 당신이 4 억 또는 50 억 트윗은 내 노트북에 들어 맞는 많은 데이터가 아니지만 아마 사실 일 것이다 텍스트가 짧다는 것은 짹짹의 작은 부분입니다 타임 라인이 여기에 있고 하단에는 XML의 종류가 있습니다이 경우 JSON 표현은 텍스트가 녹색이 아닌 것을 제외하고는 짹짹에있다 상단에서 네 번째 줄, 나머지는 모든 종류의 텍스트 트윗에 관한 사용자 정보에 관한 물건 정보를 그것을 retweeted 또는 실패 또는 그 geolocation 엔티티 같은 물건을 짹짹 등 나중에 우리가 얘기 할거야 그래서 이것과 외부 웹 사이트 4에가는 링크가있을 수 있습니다

1 억 개의 트윗은 매일 4 억 개의 트윗이 넘습니다 몇 년 동안 엄청난 양의 데이터가 있습니다 우리 블로그에서 가져온 것입니다이 블로그는 1 년 전에 나온 것입니다 만약 당신이 내 모든 것을 아주 잘 인쇄한다면 하루 2 억엔 밖에 안 남았을 것입니다

얇은 텍스트와 그것을 묶을 것이고 당신은 책을 얻을 것이고 당신은 책을 쌓을 것입니다 당신은 타이페이의이 건물보다 더 높을 것입니다 세상에서 이것은 이것이 우리가 하루에 가지고있는 것의 절반입니다 그래서 텍스트이지만 다른 데이터가있는 다른 것들이 있습니다 주목할 만하게 그래프는 그래서 우리가 가지고있는 하나의 그래프는 사회적 그래프이고 우리는 그래프는 소셜 그래프에 대해 먼저 이야기합니다

Marti가 먼저 언급했습니다 당신의 일부가 당신과 대화 할 수있는 at 기호 (@)를 불렀습니다 미아 패로우 (Mia Farrow)와 같은 트위터의 누군가가 그 사람과 대화를 나눴습니다 사라 실버먼과 누군가에게 직접 이야기 할 때 당신은 사회적 관계라고 볼 수 있습니다

그래서 여기에있는 그래프가 있습니다 왼쪽은 서로 이야기하는 사람들의 관계를 보여주는 그래프입니다 그 그래프의 한쪽 가장자리가 사라 실버먼에게 말하는 미아 패로우이고, 왼쪽에서 하나의 작은 부분으로 확대하는 것과 일반적으로 많은 소규모 파벌 인 허브 인 소셜 그래프에서 볼 수 있습니다 사람들은 그와 대화하기를 좋아합니다 그래서 우리는 우리가 가지고있는 사회적 그래프입니다

그래, 그럼 질문은 그래프에 나타나는주기가 뭐지? 당신이 실제로 확신 할 수 없을 때 나는 당신이 대답 할 때 당신도 포함시킬 수 있다고 생각한다 답장에 로그인 할 때 나는 웹 인터페이스가 기본적으로 그리고 아마도 그렇게한다고 생각한다 실제로이 그래프가 Isaac Hepworth의 호의임을 여기에서 확인하지 못했습니다 트위터에서 좋아요 그래서 재미있는 데이터의 다른 유형은 다음과 같습니다

만약 당신이 텍스트를 그냥 무시한다면 그것은 앞으로 오는 것들의 흐름으로 생각할 것입니다 그 물건에 관한 흥미로운 점은 타임 스탬프가 있다는 것입니다 한 시점에서 다음 시점으로 큰 차이가 있으므로 여기에 내가 언급 한 그래프는 유로 컵에서 국가 대표팀과 경쟁하고 있다고 생각합니다 일년 내내 진화 해갔습니다 마지막 팀이 끝날 때까지 팀을이기는 팀은 두 팀이 있습니다

서로 경쟁하고 그들에 대한 언급이 엄청나게 많습니다 우리가 보는 것들은 정치에 관한 많은 것들입니다 이것은 최고 화요일까지 달리는 4 명의 후보자에 대한 짹짹을 언급한다 네 명의 공화당 후보들과 당신은 누가 갈지 예측할 수 있습니다 사람들이있는 사회적인 그래프에 대해 이야기 할 수 있도록 트위터는 서로 직접 대화하는 것이 더 유명한 그래프입니다

관심 그래프를 통해 사람들을 팔로우 할 수 있음을 알 수 있습니다 트위터와 내가 누군가를 따라 간다고해서 내가 그와의 사회적 관계 나는 불행하게도 오바마를 따른다 실제로 마티에게 사실이 아닐 수도있는 사회적 관계와 나는 사물을 따라 간다 여기에서 정치가들에게 흥미로운 것들이 있습니다 베이 지역에서 그리고 그것은 사회의 관심사가 아닌 그래프를 만듭니다 관계 이것은 서로 다른 그래프이므로이 모든 것을 함께 결합합니다

많은 텍스트가 있다는 사실은 타임 스탬프가 찍혀 있다는 사실입니다 사람들 사이에는 관계가 있습니다 그리고 당신은 실제로 Evan이 무엇을 얻었습니다 당신이 얻는 세계의 맥박의 종류 인 2007 년 초에 2007 년에 예언했다 사람들이 지금 어떤 관심을 갖고 있는지에 대해 사람들이 흥분하는지 알아보기 그리고 장기적으로 이것들은 정상에있는 예제 일뿐입니다

폭스 뉴스와 그 아래 부분에 대한 토론 중 하나를 추적합니다 폴 라이언 (Paul Ryan)의 선택을 둘러싼 관계를 부사장으로 분석하면 알겠습니다 이 모든 데이터 우리는 무엇을해야합니까? 이 수업에서 너무 많이 반복하기 때문에 많은 것들이 많이 있습니다 이 많은 데이터를 처리 할 수 ​​있도록 시스템을 확장하여 생각해라 텍스트의 짧은 부분으로하지만 Justin Bieber가이 짧은 텍스트를 트윗하면 2 천 5 백만 명의 사람들이 그녀를 따라 가면서 10 시간 이내에 그걸 얻었는지 확인해야합니다

몇 초만 힘들어 그런 식으로 뭔가 쓰는 것이 좋습니다 쉽지는 않지만 내 관점에서 보면 더 흥미로운 것들이 있습니다 적어도 우리는 분석과 추론이 필요한 것들을 데이터로 처리합니다 그 세계에서 나왔기 때문에 처음으로 이해합니다

하루에 4 억 트윗이 있습니다 시간을두고 추론하면 수백 가지가됩니다 수십억 개의 트윗이 있습니다 색인 Google보다 큰 오늘은 당신이 그것을 검색하고 검색을 의미합니다 관련성 및 최상의 결정뿐만 아니라 트윗은 물론 최고의 이미지가 무엇인지, 언제 당신이 사람 대 콘텐츠와 짹짹에 관심이있을 때 대 우리가 다른 일을하는 흥미로운 일은 권고 사항이므로 권장합니다 당신은 사용자가 될 수있는 콘텐츠가 있습니다

거기에 일종의 애플리케이션이 있습니다 누가 예를 따라 따라야하는지 우리는 거기에서 문법 과오가 있다는 것을 알고 있습니다 당신이 사이트에 로그인하고 당신을 기반으로하는 추천을 따르십시오 우리가 따라야 할 다른 사람들에게 권유한다 Adam Sharpe는 정치에 종사하는 Twitter 직원입니다

다른 사람들 그들은 우리가 어쩌면 멋진 경연 대회가 될 수 있도록 그들이 재미있을 것 같은지 모르겠다 그게 기본 숙박 시설 중 하나 인 숙박 시설입니다 누군가에게 소식을 전하기 위해 내가 추천하는 콘텐츠 추천도 있습니다 사이트와 어쩌면 당신은 당신이 발견 한 기능이라는 것을 사용하고 있습니다 마우스가 없다면 추적 할 수있는 기능이 있습니다

발견 기능이 있습니다 더 큰 샷의 왼쪽 상단 부분에 흥미로운 것을 보여줍니다 지금 당장 일어나는 일들과 뒤따른 일종의 당신이 따라하는 사람들에 의해 tweeted이 경우에는 권장되는 내용 나에게는 경제학자의 교육 개혁에 관한 모든 것입니다 Twitter는 사람들과 사람들을위한 서비스이지만 우리는 우리가 광고하는 방식으로 우리가 사이트에 광고하기 때문에 돈으로 그 서비스입니다 광고주 광고의 일부 짜증나는 콘텐츠를 넣지 마십시오 다른 서비스는 우리가하는 일을 유기농 콘텐츠 트윗 사용자에게 홍보합니다

우리가 그 (것)들과하는 유일한 일은 당신이 가지고 있더라도 당신의 타임 라인에 그것들을 넣는 것입니다 집에있는 검색 타임 라인에서 그들을 따르지 않았다 누가 추천서를 따르는 지 확인하십시오 맨 위 왼쪽 것은 실제로 검색된 것입니다 나는 충실도를 찾았고, Google에서 충실히 검색하면 관련 서비스에 대한 광고가 표시됩니다

우리는 프로모션 트윗을 가지고 있습니다 그것은 단지 트윗 일뿐입니다 다른 트위터처럼 트윗입니다 트위터 당신이 그 트윗을 실제로 가지고 계시지 만, 우리가 승진 하셨다면 결과의 상단에 그것은 우리가 말했을 정도로 나는 다른 것에서 추측한다 금융 서비스 회사와 마찬가지로 100 개 또는 몇 개를 제외하고 검색하지 않은 경우에도 100 개의 트윗은 우리의 광고가 될 것입니다

우리는 또한 사용자 또는 계정에 대해 동일한 작업을 수행합니다 한 가지 종류의 대용량 데이터로 할 일이 훨씬 더 많습니다 우리가해야 할 성가신 일은 나쁜 사람들과 싸우는 것입니다 아마 동유럽 출신이고 겉으로 보지 않는 Jan Jones를 놓치지 마라 그게 내가 비아그라를 보내려고하는 것 같은데

나는 그녀가 우리에게 그렇게하지 않기를 바랄거야 사용자가 원하는대로 알고리즘을 개발해야합니다 스피커를 통해 빠르게 천천히 실행하고 싶습니다 앞으로 몇 주 안에 당신이 가질 수있는 일을 빨리하십시오하지만 저는 그것을 몇 주 안에하고 싶습니다

트위터의 기능 중 일부를 보여줄 것입니다 다른 트윗을 통해 익숙해 져서 다음 번에 다음 이야기가됩니다 주 괜찮아요 그럼 다음 이야기는 플랫폼의 책임자 인 라피에 의한 것입니다 팀과 Othman이 트위터에서 성장 담당 부사장 인 플랫폼 팀은 트위터와 API 요청을 할 때 API를 처리하는 팀 이 수업에서 트위터에 API 요청을하면이 사람이나이 사람에게 간다 이 사람의 팀이 우리 웹 앱의 스크린 캡입니다

모바일 앱마다 다르지만이 친구들이 갖고있는 트윗의 수를 보여줍니다 얼마나 많은 추종자들이 얼마나 많은 사람들이 따르는가에 대해 Othman의 트윗이 있습니다 세계에서 칫솔보다 휴대 전화를 더 많이 사용하는 사람들이 필요하다고 생각합니다 첫 번째 피난처와 어떤 음식이든지간에 Maslow의 필요 계층 구조를 다시 생각해보십시오 그리고 나서 나는 그 꼭대기에서 성적이거나 내가 지적하고 싶은 것이 있다고 생각합니다

여기에 당신이 트윗과 트윗의 링크를 실제로 연결할 수 있다는 것입니다 큰 퍼센트 나는 당신이 수십 퍼센트의 숫자를 기억하지 못한다 우리는이 140 자에 대해 일종의 관대하다 내가 당신이 그것을 압축 할 아주 긴 링크를 트윗 할 수 있기 전에 내가 말했던 한계 자동으로 더 긴 링크로 표시 할 것입니다 Raffi 나는 이것에 의해 꽤 스트레스를받는 휴가에 가기 위해 들었다

실제로 트위터에서 Foursquare와 내가 여기서 지적하고자하는 것은 우리가 확장 트윗이라고 부르는 것입니다 이 JSON 큰 구조체 전에 많은 것들이있는 것을 기억하라 의 좋은 내용은 이 경우에 짹 짹짹 당신은 Foursquare에서 체크인 했으므로 Foursquare와 파트너가됩니다 다른 사람들의 무리와 우리가 그 수 표가 무엇을 의미하는지 알려주겠습니다 공항에 체크인했는지 확인하고 작은지도를 보여줍니다

그들이 Foursquare로 연결되는 링크가있어 트래픽을 얻을 수 있습니다 – 모두 맞아, 그 다음 주나 어쩌면 같은 주에도 괜찮을거야 어쩌면 같은 주에 우리는 도구에 대해 배우기 시작할 것입니다 이 큰 데이터를 통해 크런치를 위해 사용하고 주요 도구 중 하나는 돼지입니다 당신의 일부가 배웠을지도 모르는 하둡 위에있는 레이어입니다 당신과 얘기 할 사람은 빌과 존입니다

돼지와 Hadoop에서 크랭크를 돌릴 수있는 대형 기계 클러스터 설정 당신이 상상할 수있는 짹짹 의이 금액은 내가 말할 사람을하고 싶은지 추천 전체 그래프 또는 전체 그래프를 살펴볼 필요가 있습니다 관심 그래프는 우리가 1 억 4 천만명의 적극적인 사용자라고 생각하는 많은 부분입니다 존이하는 방식으로 활성 사용자와 비활성 사용자간에 경계가 존재합니다 그가 발견 할 얼굴이있는 것처럼 보이지 않아 2 억 명의 사용자가 있다고 가정 해 보겠습니다

몇 십분의 일이 지나면 수십억 개의 모서리가있는 그래프가됩니다 트위터에서 대화하기 전에 언급 한 내용은 공개 대화는하지만 여전히 두 사람 사이의 대화입니다 Bill 하둡 정상 회의에는 좌석과 존 밑에 파워 스트립이 있어야한다 친애하는 신이 말한다 네가 말한 방식대로 그의 아이폰에서 말하길 그것은 전원 스트립이 없었기 때문에에서 그래서 당신은 당신이 말할 수있는 우리는 처음에 예제를 보았고 더 오래 가질 수 있습니다 대화에서 보았 듯이 대화 할 수 있으므로 포럼에서 볼 수 있습니다 우리가 이야기 할 다음 일은 시간과 관련이있다

시리즈 오른쪽 그래서 우리는 트위터 타임 스탬프와 그들이 오는 방법에 대해 얘기하고 시간이 지남에 따라 볼륨이 변경되므로 두 가지 흥미로운 작업이 있습니다 데이터 스트림을 어떻게 처리 할 것인가, 구체적으로 우리가 어떻게 처리 할 것인가? 트위터 데이터의 스트림과 다른 것은 재미있는 무엇인가입니다 불규칙성을 나타내는 데이터 스트림으로 인해 둘 다 트렌드 팀에서 왔고 Rion은 실제로 트렌드를 관리합니다 팀 코스타스 (Kostas) 팀원이이 팀원이기 때문에이 팀에서 지적하고 싶은 기능 중 하나입니다 두 명은 우리가 모든 계정이 공개 된 것은 아니며 보호 된 계정을 가지고 있다는 것입니다 Rion의 계정은 공개되지 않습니다

당신은 그를 따라갈 수 없습니다 그래서 Facebook에 있어야합니다 스타일이 맞아요 요청을 보내고, 내 짹짹이 보이지 않는 한 그 짹짹을 볼 수 없어요 독점적 인 클럽에서 아직 내가 짹짹으로 지적하고 싶은 다른 것 Kostas에서 얼마나 많은 사람들이 그리스어를 읽지 않았습니까? 나는 그리스어를 읽지 않는다

이것은 이상한 계획에 관한 것이다 그리스의 야당은 국가의 성장을 증가시켜야했다 압류 은행 계좌를 통해 그렇게하지만 요점은 트위터 지원 CJK를 포함한 영어 이외의 언어 한국어 중국어 및 모든 유럽 ​​언어의 종류와 내가 처음에 말했듯이 대부분의 콘텐츠는 실제로 사용자 중 거의 대부분이 미국 출신이 아니 었습니다 그 다음 우리는 내가 좋아하는 주제 인 사람을 검색하는 것에 대해 이야기 할 것입니다 검색 및 관련성 단체를 이끌고있는 Brian이 이야기 할 것입니다

정확히 여기 실수로 그에게서 트윗이 나온다 tilde라는 원치 않는 하위 디렉토리를 만들었습니다 [~] 어디 있는지 짐작할 수 있을까요? 다음에 얼마나 많은 사람들이 열렬한 유닉스 사용자인지 짐작할 수 있습니다 무슨 일이 벌어져서 그가 끔찍한 일을 근본적으로 원했어 당신이 뭔가를 retweet 수 retweets 및 즐겨 찾기이며 이메일 전달과 동일하지만 자동 전달됨 너를 따르는 모두는 내가 매우 우습다라고 생각한다

내 추종자가 그 재미를 나눌 수 있기를 바랍니다 당신은 2 개를 제외하고 실제로 아무것도하지 않는 트위터를 좋아하는 fav를 할 수 있습니다 일종의 세트가 우선 당신이 좋아하는 신호를 보내고 일종의 두 번째로 나중에 실제로 찾을 수있게 만드는 것입니다 왜냐하면 실제로 좋아하는 트윗을 모두 정리하고 보여 주기만하면됩니다 그 후에 우리는 권장 사항에 대해 여러 번 이야기 할 것입니다

추천 시스템에 대한 그래프로 세 사람이 이야기 할 것입니다 개인화 팀에서 일하는 Aneesh입니다 Alpa를 따르는 사람은 광고를 통해 수익 팀에서 일합니다 트렌드 팀에서 일하는 Stan과 타게팅 그래서 우리가 짹짹이는 것이 모두 retweeted되었을 때 어떻게 보이는지 보았습니다 맞아요, 아니면 애인 한테 바닥에 작은 카운터가 있어요

100 배나 2 배, 사람 또는 적어도 가장 최근의 그것을 retweeted 사람들은 나에게 어떻게 보이는지 나는 따라 가지 않는다 Aneesh Alpa를 따라 가며 타임 라인에서 갑자기 트윗이 나옵니다 내가 모르는 Aneesh와 그것이 아래에 Alpa에 의해 retweeted하게되는 것을 말한다 오, 그건 내 생각에 마지막으로 슬픈 트윗이 될거야, 아니면 마지막으로 우리가 비아그라 친구들에 대해서 이야기했던 것은이 성가신 일입니다 동유럽에 싸울 팀이 있습니다 커트는 그 팀에 있습니다

커트는 실제로 버클리에있는 보안 실험실에서 그는 지금 우리와 함께 일하고 있습니다 트렌드 팀에서 이제 그는 스팸과 싸우고 있습니다 나는 당신이 링크를 가질 수 있다고 말했습니다 트위터에서 가질 수있는 특수한 종류의 링크는 이미지이므로 기본적으로 사진이있을 때마다 휴대 전화의 사진을 직접 트윗합니다 짹짹에서 그것은 자동으로 확장되고 그것의 장소에서 종류를 볼 수 있습니다

스타 벅스에 관한이 사건은 그들이 어떻게 자신들의 오케이라고 부르는가하는 것입니다 그들의 커피 크기를 좋아라 그러면 마지막 주제는 진보 된 주제 다 우리가 사용하는 가장 일반적인 도구 인 돼지의 시작 큰 데이터를 처리 할 때 우리가 많이 사용하는 다른 도구가 있습니다 Scalding so 돼지는 Java를 기반으로 만들어졌으며 SQL과 비슷합니다

의미 Scalding은 스칼라 위에 구축 된보다 현대적인 시스템이며 더 관용적 인 프로그래밍 언어 의미론을 사용하면 더 많은 것을 할 수 있습니다 유연성과 그것은 실제로 트위터에서 오픈 소스와 두 가지로 개발되었습니다 그래서 주요 개발자 중 두 명은 Oscar와 Argyris이며, 둘 다 Scalding을 개발했습니다 하지만 그들은 그들이 만든 수익 팀에 있습니다 우리를위한 돈은 Hadoop의 앞으로 기사에서 Oscar의 짹짹입니다 이 짹짹에 대해 언급하고 싶은 두 가지 사항을 해시하는 것은 해시 태그입니다

나는 다른 짹짹과 지오 태그에서 이전에 보았던 것 같아서 해쉬 태그는 정렬되어있다 주제 또는 종류의 키워드를 트윗에 첨부하는 방법 해시 태그를 클릭 할 수 있다고 쉽게 검색 할 수 있으며 모든 것을 볼 수 있습니다 해시 태그가 들어있는 다른 트윗과 그 종류도 많은 것으로 사용됩니다 감정을 지정하는 사례 및 주제가 아닌 주제를 사용하여 해시 태그를 좌절시킬 수 있습니다 또는 해시 태그가 행복하다는 것은 다른 위치에 트윗이 올 수 있다는 것입니다

특히 휴대 전화를 사용하는 경우뿐만 아니라 웹 앱을 사용하는 경우 위치를 지정할 수 있습니다이 경우에는 이전 위치에서 tweet되었습니다 여름에 우리는 Tenderloin으로 옮겨서 수업 I에 대한 나의 목표입니다 실제 API를 사용하여 작업하기를 원한다면 트위터 제안 나는 우리가 가지고있는 데이터로 작업하기를 원하며 나는 또한 원한다 당신은 Twitter와 같은 장소에서 어떻게 작동 하는지를 배울 수 있습니다

샘플 애플리케이션 스팸 방지 사용자 검색 검색에 대해 이야기했습니다 얻을 필요가있는 데이터를 분석하기 위해 필요한 여러 단계가 필요합니다 그것은 그때 당신은 그것에 대한 알고리즘을 개발할 필요가 다음 테스트해야합니다 그 때 당신은 그걸 배포해야하고, 어떻게하면 정말로 좋아할 것인가? 당신이 가능한 한이 단계들을 거치며 나는 또한 당신이 건설되기를 바랍니다 Marti가 유용한 정보를 제공하지만이 수업의 일부는 트위터를 통해 실행되는 물건을 만들기 위해 물건을 만들고 싶습니다 이것은 재미 있기 때문에 나는 우리가 즐거운 시간 보내길 바란다

그런데 이것은 내 트위터 핸들이다 나는 53 명의 팔로워를 얻으 려하고있다 제발 따라 와서 액세스가 필요한 프로젝트가있는 경우 외부 API에서 작업하겠습니다 내부 데이터에 최선을 다해 아무 일도 할 수 없다 다른 질문은 괜찮습니다

질문은 정서 나 기분에 관한 것입니다 또는 감정은 그것이 당신이 꼭 재미있는 것을 찾는다면 그것은 당신에게 달린 것입니다 예, Twitter에서 본 가장 흥미로운 응용 프로그램 중 일부입니다 데이터는 감정과 관련된 것이고 기분은 적절히 추적됩니다 나는 당황스러워 할거야

내 오디오가 더 좋아질거야 그러니 내가 원해 연구와 관련하여 Twitter에 대해 조금 이야기하고 나는 이것을 I로 시작할 것입니다 꽤 근사한 숫자를 생각해 보았습니다 그래서 저는 실제로 우리가 트위터 연구에 대한 주석이 달린 서지를 만들고 나는 그들 중 일부와 함께 시작하고 수업을 포괄적으로 만들도록하십시오

트위터 연구의 주석이 달린 서지 그래서 나는 트위터를 검색했다 Google 학자와 나는이 무서운 숫자를 충분히 볼 수 있습니다 그러나 2008 학년도부터 학자들은 36 만 9000 경기를 주장합니다 번호와 그들의 데이타베이스는 뉴스 기사를 포함하여 실제로 커졌습니다 그리고 물건과하지만 난 당신에 대해 많이 알고 있다고 생각하지 않는다

새들의 트위터 나는 요즘 사람들이 무엇을 의미하는지 모르지만 그럼에도 불구하고 많은 학술 논문이 있음을 시사합니다 트위터 그래서 그 숫자가 일종의 기괴한 일이었던 나는 마이크로 소프트에 갔다 이제는 큰 컬렉션이없는 학술 검색 도구가 있습니다 그러나이 검색 도구조차도 1,200 개의 출판물에 Twitter라는 단어가 들어 있습니다 다시 한 번 트위터라는 한 연구원이 있다고 생각합니다 또는 그녀는 요즘 많은 히트를 얻고 있을지도 모르지만 그것은 여전히 ​​많이 남아 있습니다

너는 볼 수있어 나는 지금 쥐가 없다 왜 그런지 대부분 모르겠다 컴퓨터 과학에 있지만 최소한 알고리즘에 따라 몇 가지 레이블이 있습니다 사회 과학 공학 의학 등 아마 의료 것들은 그렇지 않습니다

관련성이 있지만 실제로 그들은 실제로 건강 관리이고 트위터는 많이 얻고 있습니다 많은 사람들이 많은 연구를하고 있음을 알 수 있습니다 트위터 데이터와 당신도 알다시피 그것은 사실도 마찬가지다 연구와 트위터로 계속해서 나는 토론 할 주제는 많지만 분명히 많이 있습니다 이 수업은 어떤 점에서 어느 정도까지는 그렇습니다

인용 횟수가 많은 논문이므로 트위터 란 무엇입니까? Kwan 등의 논문은 Twitter가 소셜 네트워크 또는 당신의 발언과 관련된 언론 매체 아마 트위터를 사용하는 사람의 대답은 트위터의 인구 통계입니다 그것을 연구하는 사용자는 아마도 데이터를 기반으로 한 실험적으로 더 경험적으로 퓨 센터 (Pew Center)는 설문 조사를 기반으로합니다 Java et al에 대해 자세히 이야기하십시오

내가 여기에 열거 한 종이 잠깐이지만 사람들 Ramej (?) 외 주제 모델링을 사용하여 트위터의 내용은 다음을 시도 할 때 할 수있는 몇 가지 끝없는 작업을 트윗합니다 자동으로 분석하고 분류하고 트윗의 내용을 분석하거나 네트워크 구조와 트위터가 무엇인지에 영향을 미치는 사용자 트위터 네트워크가 의미하는 바는 이것이 또 다른 연구 라인입니다 Wang et al 트위터 순위에 대한 논문은 사람들이 많이 인용 한 것입니다

대규모 비상 사태에 트위터가 많이 있으므로 애플리케이션이 너무 많습니다 트위터뿐만 아니라 다른 소셜 미디어에 대한 관심도 응용 분야 Twitter가 당신의 사회적 지위 또는 사람들에 대한 의미는 무엇입니까? Twitter가 대인 관계 및 Huberman에서 서로 너무 관련이 있습니다 et al 종이가 잘 알려져있다 베르나르도 (Bernardo)는 항상 첫 번째를 얻는 경향이있다

새로운 지역의 커다란 종이 그는 여기에서도 그것을했다 직장에서의 마이크로 블로깅과 같은 질적 인 사회 과학 논문의 종류 비록 그것이 반드시 우리의 빅 데이터 테마에 적합하지는 않지만 @ 기호는 허니와 헤르 리 글 (hern and herrig)에 마이크로 블로깅 외에도 잘 알려진 종이를 가지고 있습니다 트위터를 통한 대화 및 협업 소아마비를 이용하여 질병 발생을 모니터링하는 전염병과 같은 주제 트위터 시대의 전염병과 그러한 종류의 일이나 동료 Hal Varian은 실제로 검색 로그를 더 많이 사용 하겠지만 경제 예측을하려고 애 쓰고 있거나 지금 보러 가려고하는 것을 더 빠른 경제 지표 월 단위로 나오는 표준 정부 기관 도구가 할 수있는 것보다 또는 매년 경제 지표를 얻을 수있는시기 실시간 기반으로 우리는 당신이 볼 수있는 것이 트위터로 할 수 있습니까? 데이터 사용자는 물론 정치 정보를 사용하여이를 수행했습니다 배심원들이 선거를 예측한다고 말하면 어떤 사람들은 그들은 다른 방법보다 선거를 더 잘 예상하고 그 다음에는 서류가 돌아 왔고 그 다른 서류들이 잘못되었다고 말했다

좋은 일을하고있어서 논쟁의 여지가 많아요 선거를 예측할 때 소셜 미디어가 얼마나 좋은지 지금 가고 싶습니다 큰 데이터와 트위터 데이터를 결합하는 좀 더 자세하게 두 개의 논문으로 적어도 내 세계에서 이런 종류의 스플래시를 최근에 만들었습니다 과학 잡지에서 최근에 나온 기사는 일주일이라고 불 렸습니다 계절별 기분은 직장 수면과 낮과 밤의 길이에 따라 다릅니다

다양한 문화와 그것이 지난 9 월에 출판 되었기 때문에 이것이 나의 요약이다 이 백서의 목표는 사람들의 기분에 관한 데이터를 얻는 것이 었습니다 하루 종일 그리고 전 세계에 걸쳐 그들이 어떻게 대응하고 있는지 하루 하루의 시간은 분명하고 또 다시 내가 들키지 않는 분야를 의역으로 말하고있다 전문가 그래서 절대적으로 정확하게 캡처하지 않을 수도 있지만 분명히 연구자들이 사람들의 기분이 어떻게 바뀌는 지 연구하면 잘 들어 맞습니다 사람들이 인터뷰를받는 곳에서 일반적으로 이루어지는 방식에 반대합니다 실험자는 어떻게 느끼고 있습니까? 실험실에서 당신이 아는 것입니다

사실 또는 일기 연구에 의해 설정되거나보고 된 것이지 반드시 그렇지는 않습니다 장기간에 걸쳐 이루어 지거나 소수의 사람들에 의해서만 이루어지기 때문에 배경의 일부 개인의 기분은 정서적 인 상태이므로 사람들이 느끼고 느끼는 방식입니다 신경 화학 물질에 의해 모두 영향을받을 수있다 호르몬과 사회 활동을 통해 누군가에게 일어나는 일들과 그들이 깨어 났을 때 잠을 잘 때까지 매일 매일의 일상을 긍정적이고 부정적인 효과에 대한 개념과 현재의 연구는 이것들은 독립적 인 차원이며 그래서 긍정적 인 것들에 영향을 미친다 긍정적 인 긍정적 열정과 기쁨은 부정적인 영향에 영향을 미친다

두려움과 분노, 연구와 같은 감정으로 정의됩니다 낮은 긍정적 인 영향은 긍정적 인 것이 없음을 시사한다 감정은 부정적인 존재의 존재가 아니며 그래서 그것이 그들이 의미하는 바입니다 당신이 열정적으로 느끼지 않기 때문에 독립된 차원입니다 기쁨을 알리는 것이 당신의 분노와 죄책감에 대해 고민하는 것을 의미하지는 않습니다

긍정적 인 영향을 미치지 않는다고해서 그것이 네가 부정적인 영향을 미치지 않는다는 의미는 아닙니다 연구가 제안하고있는 것이지만 대부분의 데이터가 희소하기 때문에 실험실 환경이나 다른 방법으로 이루어 지므로 반드시 그렇게 강하지는 않습니다 그들은 생각할지도 모르고 그것이 잠에 묶 였음이 입증되었다 패턴이지만 증거가 희박해서 그들이 원하는 것은 Twitter를 사용하는 것이 었습니다 패턴이 무엇인지 알 수있는 많은 증거를 얻기위한 데이터 정말 큰 컬렉션 트위터 데이터의 509 만 큰 컬렉션 240 만 명의 사용자가 올린 게시물을 게시합니다

그 사이에 적어도 내가 원래의 짹짹인지 확실하지 않기 때문에 나는 게시물을 말하고있다 또는 그것이 retweets를 포함하거나 안 종이의 부분에서 명확하지 않은 경우 나 읽고 거기에 많은 보조 부록이 있었고 나는 그것들 모두를 읽지 않았다 사용자 당 25 ~ 400 개의 게시물을 정리했을 수 있으며 데이터는 2008 년 2 월에서 2010 년 1 월 사이에 약 2 년이 걸렸습니다 전 세계의 국제적이지만 오직 영어 게시물 만 영어 사용 가능 그런 다음이 예쁜 표준을 사용하여 트윗 텍스트를 분석했습니다 꽤 간단한 LIWC라는 콘텐츠 분석 도구 기본적으로 어떤 단어가 발생 하는지를보고있는 도구입니다

사전 분류 된 사전 용어 심리적 규범 적 연구를 사용하여 긍정적이거나 부정적인면에서 매우 친절 함 많은 조잡한 도구가 있지만 많은 심리학 연구와 종류에 의해 사용되었습니다 유효성이 확인되었으므로 일부 그래프는 끝나고 상단 부분은 다음과 같습니다 예 마우스가 작동하지 않지만 상단 부분은 긍정적 인 영향에 대한 우리의 라인입니다 그리고 밑 부분은 부정적인 영향과 색에 대한 우리의 선은 매주 다른 요일 월요일 화요일 수요일 목요일 금요일 토요일과 색상은 검은 선 주위의 신뢰 구간입니다 그것은 내가 신뢰의 평균값이라고 생각하는 가치입니다 간격과 볼 수있는 주요 지점입니다 그리고 우리는 시간을 볼 x 축에 그래서 중간에 정오입니다

그리고 나서 우리는 맨 오른쪽에 한밤중을 갖습니다 그래서 볼 수있는 가장 중요한 점은 무엇보다 먼저 모든 것이 같은 모양이라는 점입니다 그것은 꽤 단단하고 그날과는 독립된 같은 모양입니다 일주일에 주말에 사람들이 더 긍정적 인 영향을 미쳤습니다 그리고 토요일 그러나 모양은 꽤 많이 동일하다

그리고 there 's의 종류가있다 아침에는 긍정적 영향이 더 커지고 자정 무렵에는 더 높아진다 하루 중반에 낮아지고 하루 중반에 낮은 낮은 지점을 보자 자정 무렵에는 부정적인 영향을 미치고 또한 흥미롭게도 자정 무렵에 봉우리가 나서 아침에 가장 낮습니다 사람들은 아침에 좋은 기분으로 시작합니다

그런 다음에 일종의 도착합니다 하루가지나면서 점차적으로 악화되지만, 가장 중요하게는 모든 것이 아닙니다 이 패턴을 실제로 보았던지도 위에 이 패턴은 전 세계에 걸쳐 4 개의 다른 블록이었습니다 인도 아프리카 호주, 영국 및 미국과 캐나다의 차이가 더 큽니다 인도의 아프리카는 다른 그룹에서 차이가 적었습니다

계속 나아가 라 그래, 그래, 그래서 그들이 짹짹 다음 시간을내어하고있어 짹짹에 대한 콘텐츠 분석은 그 당시의 짹짹이 더 적을 수도 있습니다 하루 그래서 나는 그들이 그 요소에 맞춰 정상적으로 작동한다고 가정합니다 하루는 시간이고, 그 시간을 지적 해 주셔서 감사합니다

그들은 짹짹 울고 그래서 그들은 짹짹의 내용을 가지고 가고있다 깨어서 트위터를 치고 음, 네가 아는 다양성에 대해 자세히 설명해 어느 나라가 일하고 있는지에 대한 차이 주와 근무 일정 어떤 유사 콘텐츠가 포함될 수 있지만 요점은이 기능을 사용하는 것입니다 수백만의 엄청난 양의 데이터와 트위터와 트위터 그들이하고있는 짹짹이 얼마나 많은가가 일관된 패턴은 정말 흥미 롭습니다 슬라이드의 가능한 문제는 내가 찾은 한 가지 질문입니다

정말 흥미 롭다는 것은 주요 논문에 없었지만 부록에있었습니다 그러나 그들은 주요 논문에서 밤 올빼미의 존재와 나의 할머니는 항상 그녀가 밤 올빼미라고 주장하므로 정말 이걸 발견했습니다 당신이 거기에서 보았던 흥미있는 그렇게 흥미있는 것은 회색 인 사람의이 특이한 사람이었다 긍적적인 영향과 부정적 영향 모두를위한 여기 바 사람들이 특히 많은 수의 트윗을 한 경우 밤 올빼미가 나중에 밤에 더 많은 트윗을했을 정도로 하루 중 여러 번 당신의 요점에 도달하는 종류와 또한이 사람들은 아침 오후에 더 많은 짹짹이를 한 사람들과 저녁 그들은 거의 같은 패턴을 가졌지 만 많은 일을했던 사람들 밤 늦게 짹짹도 긍정적 인 영향을 미치는 다른 패턴을했다 실제로 부정적인 영향을 미치는 사람들이있을 수 있다는 그 당시에는 다른 리듬이있어서 정말 재미 있다고 생각했습니다 이 결과에 대해 먼저 논의 해 보겠습니다 가정

How to Install Hadoop on Windows

안녕하세요 모두 오늘 이야기합시다 Hadoop을 Windows에 설치하는 방법 매우 단순화 될 것입니다

이전과 비교하여 접근 내가 제공 한 옵션 Haughton은 데이터 플랫폼 또는 HTP를 사용할 수 있습니다 계속 전진하기 전에 아래 링크를 확인하기 위해 참고 하둡 책 전체 목록보기 다른 사람들의 리뷰와 시작하자 그래서 제품을 설정해야합니다 최신 JDK 18이므로 선택하겠습니다 1

8 데모 171 업데이트 171 최신 장애물 패키지 다운로드 나는 어디서부터 링크를 공유 할 것인가? 당신은 그들을 다운로드 할 수 있습니다 오라클 웹 사이트 및 JDK를 다운로드하려면 여기에 URL이 있습니다 너는 볼 수있어 내 시스템이 창문에서 돌아 다니고있어 64 비트 버전이므로 다음에 갈 것입니다 JDK 8 Update 1 7 또는 Windows를 다운로드하십시오

64 비트 또는 32 비트에 따라 6 비트 버전 또는 64 비트 다운로드 버전 그래서 면허를 받아들이십시오 계약서를 다운로드하고 다운로드하십시오 제 시스템에 넣으십시오 두 번째 것은 다운로드해야합니다 hadoop 소프트웨어를 다운로드하십시오 hadoop은 아파치 8 도트의 점을 찍었습니다

소스와 바이너리를 찾을 수있는 곳 슈퍼 하프 그래서 여기에 리드 왼쪽 메뉴에 출시 링크가 있는지 확인하고 그걸 클릭하면 알 수 있듯이 다양한 버전은 일종의 사용할 수 있으면 계속 나아갈 수 있습니다 최신 하나도 괜찮지 않아 하지만 다운로드 만하면됩니다 소스 대신 바이너리 패키지 패키지 바이너리는 이미 미리 만들었 으면 할 필요가 없습니다 거기서 일하지만, 소스를 컴파일해야한다

많은 사람들을 데려 갈 사람들 시간의 그래서 나는이 데모를 위해 이미 27 점 6 이진수를 다운로드했습니다 패키지 그래서 가서 다운로드로 잘 좋아, 네가 여기서 볼 수 있듯이 우리는 이미 다운로드 했으니 계속 진행하십시오 하나씩 설치를 시작하십시오 첫 번째는 JDK 패키지를 설치하자

그걸 두 번 클릭하십시오 그래서 내가 여기서 볼 수있는 설치 프로그램 창문이 튀어 나왔다 다음에 제일 먼저 나는 가지 않을거야 기본 위치에 설치하십시오 어느 프로그램 파일입니다 자바 JDK 전 C Java JDK에 넣으려고합니다

그 위치를 바꾸자 마침내 당신은 설치 중에도 확인하십시오 그걸 바꾸려면 그래서 Jerry의 위치가 추가되었습니다 내기 다음 것 우리는 여기에서 설치를 완료했습니다 이제 다음 단계는 자바를 추가하는 것입니다

환경 변수의 고향 그래서 환경 변수로 가라 창 설정으로 이동하고 그래서 여기로 돌아가서 새로운 변수를 추가하십시오 자바 홈이라고 불리는 자바의 경로 본질적으로 설치되어있는 비디오 C 그래, 다시 돌아가서 Java를 추가한다 경로에 빈 이걸 좋아하고 이제 명령을 열어 신속한 사실 Java – 버전에서 볼 수 있습니다

우리는 즉각적인 1 8 8 1 0 7 하나 다음 단계는 설치하는 것입니다 하둡 그래서 여기 나는 이미 27 점의 다운로드 부분 6 그래서 이것들은 당신이 얻는 파일들이다 추출 후 한 가지로 이걸 추출 할 때 기억하라 그러나 tar dot pencil에서 볼 수 있습니다

발행 오류가 발생했습니다 당신이 할 수있는 파일이 거기에 있습니다 안전하게 무시하십시오 좋아, 그럼 다음 단계는이 협력이다 추출 된 Hadoop 폴더가 C에 저장됩니다

디렉토리를 복사하고 여기에 디렉토리를 복사하십시오 직접 그래서 일단 증서가 끝나면 부분을 복사하십시오 그것의 창 설정을 열고 다시 많은 것을 제공하기 위해 회계사와의 차이 그런 다음 돌아가서 새 변수를 추가하십시오 Hadoop 변수 값은 위치입니다 하둡의 이 정보를 계약 그래서 사용자의 경로를 이렇게 편집하십시오 마찬가지로 하나 더 추가해야합니다

Hadoop의 s- 펜 인 위치 기본적으로이 위치에는 Linux 및 Linux 용 중요한 실행 파일 우리가 사용하는 창에 대한 명령 파일 그 얘기를 잠시 후에 할거야 그래서 지금 가서 이걸 더해라 경로를 통한 변수가 그렇게되었습니다 창 설정을 닫습니다 복사 한 곳의 머리 볼 필요가있다

etc 'Hadoop에 가면 여기에 우리가 수정하려는 중요한 단계 우리가 필요로하는 네 가지 XML 파일 특정 속성을 추가하려면 수정을 앞두고 이 속성은 필요합니다 그래서 코스를 열어 보겠습니다 XML을 가르쳤다 구성 섹션으로 가십시오 재산 여기에 이름이있다

마찬가지로 속성 이름은 Fs 도트 기본값 FS가 될 것입니다 가치는 HDFS가 될 것입니다 localhost와 9000 만 있으면됩니다 현재 필요한 속성 그래서 이것은 기본적으로 당신의 이름으로 사용됩니다 노드와 데이터 노드 그래서 다음 설정 파일은 당신이 찾을 수 없을지도 모르는 사이트 맵 XML을 읽으십시오

여기에 유일한 파일이 있습니다 이것은 템플릿 파일 내 친구 – – 사이트 도트 XML 도트 템플릿이 앞으로 나아가고 사본을 복사하고 사본을 작성하십시오 이름을 경로 빨간색 점 XML로 변경합니다 여기서 재산을 복사하겠습니다 다시 타이핑을 멈추고 우리는 그렇게 바꿀거야

Map Reduce 인 속성을 변경하십시오 도트 프리앰블 도트 이름 좋아, 그 가치는 젊을거야 게이터가 말하길 하품은 새로운 프레임 워크가 될 것입니다 함께 MapReduce가 실행됩니다 지금 가장 큰 다른 프레임 워크와 함께 파일을 최소화하십시오

C의 심장 응용 프로그램 그래서 seha 아래에 가서 데이터 디렉토리 데이터 디렉토리로 이동하여 데이터 노드를위한 두 개의 위치와 이름 노드에 대한 기타 그래서이 특별한 이름 메모 위치 데이터 디렉토리는 신용 손실을 저장하는 이름 두건 FS 이미지와 마찬가지로 모든 파일 우리는 데이터 노드에 블록은이 특정에 저장됩니다 데이터 노드 위치 그래서이 위치를 복사해서 etc로 돌아 간다 사이트 도트의 역사를 열어 보자 돌아가서에서 재산을 복사하자 우리가하려고하는 코디네이트 사이트 그걸 수정하다

그래서 우리는 세 가지를 수정할 것입니다 여기에 속성이 있어야합니다 HDFS의 세 가지 속성에있는 현재 9 번째 또는 x1 첫 번째 것 복제 요소 그래서 당신은 몇 번이나 데이터를 복제하는 방법을 원합니다 우리가 의사로 달리고 있기 때문에 분산 시스템 한 시스템에있는 모든 것, 우리는 단지 그 다음에 그것의 복사본 하나가 경로입니다 데이터 노드와 이름 디렉토리 DFS 점 이름 노드 점 이름 예배 규칙서 그래서 당신이 구리를 바꾸 었는지 확인하십시오

이름 그렇지 않으면 어려울 것입니다 진짜로 잘못 된 것이 무엇인지 알아 내라 네가 네 봉사를 시작하면 마지막으로 속성 이름을 DFS로 변경하십시오 도트 데이터와 오 하나님 우리의 디렉토리라는 데이터에 대한 경로를 제공하십시오 그래서 우리는 세번째 파일로 끝난다

수정은 물론 되돌아 가자 현장에있는 다른 파일로 도트 XML 깊은 곳에서 그래서 여기에 우리는 두 가지로 진행할 것입니다 다른 속성들 Aeon dot note manager dot auxilary 서비스 여기서 – 우리는 MapReduce 및 Scotia 지정 비슷하게 다른 전설 여기에 재산 폭스 서비스의 하품 노드 관리자 도트 MapReduce가 꺼져 있습니다 그래서 우리는 사용할 수있는 실제 MapReduce 클래스 데이터를 셔플 링하기위한 패키지입니다 이미 아파치에있다

코드베이스 $ 40는 하둡 점을 가르쳤다 빨간 점 처리 괜찮아요 그래서 그냥 가야지도 돌아와서 모든 권리가 있는지 확인하십시오 기본값이있는 속성 물론 하나만 가지고 XML을 배웠습니다 로컬 호스트를 가리키는 속성 이 위치의 기록 유사하게 프레임 워크 이름을 읽는다 어느 쪽이 다른 사이트인가? 복제 인자 데이터 디렉토리 그래서 여기 내가 만든 주식 이름의 실수는 데이터 여야합니다

그래서 DFS 이름 주 하나님은 그리스어의 이름을 따서 명명했습니다 이름이나 세타 위치를 가리킨다 데이터 노드 점 데이터 디렉토리를 가리킨다 데이터 모드와 마지막으로 오리온 점 XML 좋아, 지금까지 그렇게 좋았어 마지막으로 + 톡을 열고 여기 명령대로 우리가 갈거야

자바 경로 지정 그래서 가서이 줄을 확인해보십시오 Java 집으로 가져 가서 올바른 위치로 향하게하십시오 Java에 대한 팁이 하나 더 있습니다 C Java 위치에 JDK가 설치되지 않았습니다 C 콜론 아래에 설치 한 경우 프로그램 파일은 전체를 넣어야한다

이중 따옴표로 작성하는 방법 우주 때문에 부서 질거야 그것을 저장하기 위해 그래서 우리는 모든 변화와 함께 끝난다 Hadoop 설치 및 자바 설치뿐만 아니라 마지막 것은 Hadoop 핀으로 돌아가십시오 당신이 여기에서 볼 수있는 것처럼 C에 복사 핀 위치가 많지 않음 여기서 실행 파일을 몇 가지 파일을 만들었습니다 여기 또 다른 것을 알아 낸다

이 파일에 누락 된 파일 bin 위치에 복사하면됩니다 다시 시도해보십시오 빈에 넣고 모든 것을 교체하십시오 그래서 너희들이 그렇게하지 않는다는 것을 나는 안다 if 당신은이 펜을 필요로한다 자유롭게 느끼십시오 내 채널에서 핑 (ping)을하면 기꺼이 우리가 모든 일을 마칠 수 있도록 그 사람들을 나누십시오

기본 설정은 이제 우리의 명령 줄 첫 번째 단계는 다음과 같습니다 Hadoop HDFS의 format 옵션을 실행합니다 이름 노드 형식으로 액세스 할 수 있습니다 시스템 어디에서나이 명령 우리는 그것의 핀과 핀을 추가했기 때문에 할 수있는대로 하둡의 경로를 확인하십시오 여기에서 데이터 노드와 이름을 참조하십시오

데이터 위치가 서식이 지정된 이제 돌아가서 시작을 시작해 보겠습니다 그 명령을 통해 찾을 수 있습니다 C Hadoop에서 이것을 수행했습니다 여기 당신은 모든 점을 시작해야합니다 Sh 이 녀석은 모든 필요한 프로세스는 다음과 같습니다 마스터 데이터 노드 인 이름 노드 자원 관리자 및 노드 관리자 개별적으로 진행하고 실행할 수 있습니다

DFS를 시작하여 분쟁 해결사 파일 시작 시스템 시작 원사 시작 balancers 등 확인 그래서이 위치를 복사 할 수 있습니다 당신은 이것을 실행 경로에 넣지 않습니다 여기서 명령을 시작하십시오 이미 설명했듯이 그것을 넣었습니다 직접 실행할 수없는이 비디오 어디서나 명령 그래서이 명령은 4를 시작하려고합니다

그들이 말하는 다른 과정 당신은 4 개의 다른 명령을 볼 수 있습니다 당신이 여기에서 볼 수있는 것에 따라 Spiegel OKay 이름 노드가 가동되어 실행되지 않습니다 여기에 비슷한 문제가있다 노드가 가동되어 실행 중입니다 구성이 잘되고 준비가되었습니다

블록을 받아 들인다 여기 우리의 자원 관리자는 다음과 같습니다 잘 작동한다 마침내 지금 북한 관리 브라우저로 돌아가서 자원 관리자의 UI와 이름 마디 자원 관리자는 항상 그곳에는 등급이 매겨진 항구가 있고 여기에 UI가있는 것을 볼 수 있습니다 모든 MapReduce 프로그램 시스템에서 실행 된 우리의 이름 노드 UI로 가보자

로컬 호스트 5에 있어야합니다 제로 제로 7 제로 그래서 당신이 볼 수 있듯이 이것은 당신에게 우리 클러스터의 전반적인 요약 날짜 그것이 시작되었을 때 고유 한 클러스터 ID 인 Hadoop 블록 기억 장치의 특정한 시원한 아이디어 어셈블리를 클릭하면 시대의 시계와 FS 이미지가 될 것입니다 이름 노드 데이터 디렉토리에 저장 우리가 이전에 만들었던 돌아가서 몇 가지 샘플 파일을 이 복제는 처음에는 입력 디렉토리 샘플 파일 그래서 나는 이미 여기에 샘플 파일을 가지고있다 난수가있는 입력 점 고유 번호 나는 이것을 밀어 낼거야 파일 이제 파일이 실제로 있는지 봅시다 HDFS에 추가되었습니다

그래서 우리는이 파일에서 고양이를 할 수 있습니다 거기에있는 데이터 라인을 확인하십시오 그래서 우리는 성적으로 복사되거나 HDFS 두 개 더 더하자 안전 모드를 종료하는 방법에 대한 명령 또한 디렉토리를 제거합니다 만들어진 그래서 여기 우리는 금고 지금은 물을 넣어 파일을 제거하자 모드 입력 디렉토리에 넣은 다음 삭제하십시오

HDFS의 나무 그래서 우리가 이것을 삭제했다는 것을 알 수 있습니다 HDFS의 파일 그래서 그것은 오늘 여러분을위한 것입니다 이 비디오를 즐겼다 화상 설치 방법 창문을 따라 가려면 제발 저와 함께하십시오 내 채널에 가입 해 주셔서 감사합니다

당신

[A day before us 2] EP.01 Before I Go To See You _ ENG/JP

다음 주까지 제 메일로 보내주세요 자 수업 마치겠습니다

어여보세요? 어미안! 누나… 끝났어요? 으응

이제 막 끝났어 오래 기다렸지 미안해 지금 본관 계단으로 가는 중이니까 배고프면 먼저 가있어! 빨리 갈게! 어 죄송합니다 누나…? 하아 꺄악! 큰일 날 뻔 했잖아요 어 미안 난…그냥

늦을 까봐… 고마워 다음부터는 거기 있어요 제가 갈게요

고마워 연우야 어? 둘이 여기서 뭐해? 어? 여

여름아 아안녕… 어? 아하하하!!! 둘 다 오랜만이네!

[MV] YOUNHA(윤하) _ Fly To High (The God Of Highschool Game(갓 오브 하이스쿨 게임) OST)

마음속에 피어난 소원이 바람가득 밀려와 잠들어 있던 나를 깨운다 어두운 시간에 갇혀 잃어버렸던 기억이 조금씩 떨리는 손 끝 사이로 스치듯 흘러간다 돌아가기 위해 잊을수록 더 선명해지는 향기가 텅 빈 가슴 속 조금씩 차올라 빛을 향해 걸어간다 끝 없는 시련의 구름 아래 사라질 희망의 끝 붙잡고 fly to high fly to high 날아보는거야 결코 이루지 못 할 꿈을 향해 멈추지마 달려가 외치는 내 목소리가 하늘에 닿을 때 까지 가끔은 넘어지고 되돌릴 수 없다 해도 포기 할 수 없는 소중한 널 지켜낼거야 여전히 힘겹기만한 미로 속에서 이제는 널 바라 보며 미소를 지어 거울 속 비춰지는 내 모습 더는 중요치 않아 다시 오지 않을 이 순간을 절대 놓지 않을거야 끝 없는 시련의 구름 아래 사라질 희망의 끝 붙잡고 fly to high fly to high 날아보는거야 결코 이루지 못 할 꿈을 향해 멈추지마 달려가 외치는 내 목소리가 하늘에 닿을 때 까지 가끔은 넘어지고 되돌릴 수 없다 해도 포기 할 수 없는 소중한 널 지켜낼거야 한번도 가보지 못 한 길이 헤어나올 수 없게 느껴져도 이제는 모든걸 걸었어 결코 이루지 못 할 꿈을 향해 멈추지마 달려가 외치는 내 목소리가 하늘에 닿을 때 까지 가끔은 넘어지고 되돌릴 수 없다 해도 포기 할 수 없는 소중한 널 지켜낼거야

Introduction to IoT | IoT Projects-Smart Chair | IoT Tutorial for Beginners | IoT Training | Edureka

안녕하세요,이 분들은 에드레카 (Edureka)의 바하라 (Bharani)입니다 오늘의 교육 세션에서 우리는 사물의 인터넷은 왜 다음 큰 혁명 이니, 이해하자

오늘의 교육 목표에서 우리는 무엇을 이해하는지 시작합니다 정확히 인터넷의 사물이고 우리는 다음의 진화를 살펴볼 것입니다 인터넷은 IOT 아키텍처를 통해 갈 것이며 다음을 살펴볼 것입니다 IOT에 사용 된 여러 개발 보드와 마침내 우리는 Raspberry Pi 3을 사용하는 스마트 의자의 개념 목표는 마침내 나에게 채팅을 적어서 확인을 준다 상자 괜찮아요

라비가 분명하다고 말하면서 샘 팔라비는 질문을했습니다 Arduino와 IOT 개발 키트를 묻습니다 Pallavi Arduino가 있습니다 실제로 오픈 소스 하드웨어 및 소프트웨어 회사는 자신의 IOT 장치를 만들기위한 싱글 보드 마이크로 컨트롤러 귀하의 질문에 대답 Pallavi 괜찮아 그래서 Pallavi 예 맞아요 모두들 지금 Eureka의 IOT 인증 과정을이 과정에서 이수하 실 겁니다 센서 및 부품 통합을 사용하여 IOT 솔루션을 개발하는 방법을 배우게됩니다

빅 데이터 (Big Data)에서 IOT를 구현하고 활용도 및 추출 된 데이터의 모델링이 과정에 포함 된 유스 케이스 및 실습 IOT 기술이 어떻게 미래를 변화 시킬지 이해하는 데 도움이 될 것입니다 이 교육이 끝나면 귀하는 다음과 같은 역할과 책임을 배우게됩니다 IOT 개발자 바로 지금 당장 세션을 시작해 보겠습니다 인터넷이라는 용어는 기본적으로 인터넷이 기본적으로 전세계 컴퓨터 연결 인터넷은 공유 할 데이터 고속도로를 제공합니다 전 세계 한 곳에서 다른 곳으로 네트워크를 통한 정보 제공 컴퓨터 연결에서 인터넷의 기능을 확장 할 때 세계적으로 몇 개의 작은 전자 장치를 연결하는 것 Internet of Things 스마트 한 창의력을 지닌 스마트 한 장치가 이제는 만들어졌습니다

IBM Internet of Things에 따라 IOT에 대한 IBM의 정의를 살펴보십시오 모든 장치를 인터넷에 연결하는 개념과 다른 장치를 인터넷에 연결하는 개념 인터넷의 물건 인터넷은 연결된 일을하는 거대한 네트입니다 모든 사람들은 그들이 사용하는 방식에 관한 데이터를 수집하고 공유합니다 그들 주위의 신체 환경 그래서 지금 우리는 정확히 내가하는 일의 인터넷이 무엇인지를 이해했습니다 인터넷의 진화를 살펴보면 인터넷 시대 이전의 대부분의 인간과 인간의 의사 소통은 고정 된 이동 전화를 통해 문제가되었다

유선 전화를 사용하면 통신 회사와 전화 통화를 예약해야합니다 가능한 경우 가끔 연결하기 때문에 수 시간 또는 며칠이 걸릴 수 있습니다 그때 인터넷의 근원으로 세계는 즉시 바뀌었다 지리 정보를 고려하지 않고 정보를 공유 할 수있는 메커니즘을 제공했습니다 위치는 대륙이 될 수 있고 여전히 중요한 정보를 공유 할 수 있습니다

버튼 클릭과 블로깅 소셜 미디어 발명이 시작된 후 MySpace와 LinkedIn과 같은 인기 사이트에서 폭발적인 인기를 얻었다 2000 년대 초 YouTube는 2005 년에 나왔습니다 먼 거리에서 서로 의사 소통하고 공유하는 사람들 2006 년 페이스 북과 트위터가 전 세계 사용자에게 공개되었습니다 오늘날 소셜 네트워킹 사이트의 엄청난 다양성과 그 중 많은 것들이 있습니다 교차 게시를 허용하도록 연결될 수 있으므로 사용자가 친밀감을 희생하지 않으면 서 최대한 많은 사람들에게 다가 갈 수있다

사람과 사람의 의사 소통이 가능하며 컴퓨터 및 그러므로 인터넷은 거의 전적으로 인간에 의존한다 인터넷에서 거의 모든 데이터를 이용할 수있는 정보 기록을 눌러서 인간에 의해 처음으로 붙잡혀 만들어졌습니다 디지털 사진을 찍거나 바코드를 스캔하는 버튼은 사람들이 문제입니다 제한된 시간의 주의력과 정확성을 가지며 이는 모두 좋지 않다는 것을 의미합니다 실제 상황에서 데이터를 캡처하는 데만 사용하고 컴퓨터가 있으면 감사합니다

데이터 또는 가제트를 사용하지 않는 것에 대해 알아야 할 모든 것 우리의 모든 도움은 우리가 모든 것을 추적하고 세며 대대적으로 사물을 교체해야 할 때 알 수있는 낭비, 손실 및 비용을 줄입니다 수리 및 그들이 신선하거나 과거 최고 였는지 여부는 모두 인터넷 오브 사물을 통해 지금까지는 IOT가 인터넷에 연결되어 있지 않다는 것을 이해했을 것입니다 실제로 소비자 장치는 IOT가 가능한 시스템을 구축 한 기술입니다 현실 세계의 자극에 자율적으로 감지하고 반응 따라서 인간의 개입은 확실한 프로세스 흐름을 개발할 필요가있다 프레임 워크는 IOT 솔루션이 내장되어 있으므로 Internet of Things는 엔티티 또는 고유 한 물리적 장치입니다

임베디드 시스템을 식별하고 네트워크를 통해 데이터를 전송할 수있는 능력 이러한 것들에는 센서와 액추에이터가 장착되어있어 전송하는 장치의 센서 신호 수용 및 처리 물리적 환경의 정보를 신호로, 액추에이터는 센서로부터의 신호에 작용하는 장치이며, 수집 된 정보를 전송하기 위해 출력물로 변환 아두 이노 (Arduino)와 같은 하드웨어 구성 요소와 라스베리 파이 (Raspberry Pi)는 센서는 아날로그 형태로 시작하여 집계하여 다운 스트림 데이터 수집 시스템을위한 디지털 스트림 이러한 데이터 집계 및 변환 기능을 수행합니다 센서 및 액츄에이터에 근접하여 설치되는 수집 시스템 예를 들어 펌프에는 6 개의 센서 및 액추에이터가 포함될 수 있습니다 데이터를 데이터 집계 장치에 공급할뿐만 아니라 데이터를 디지털화하고 거기서 인접한 게이트웨이 장치 나 Cir 단어가 될 것이므로 데이터를 디지털화하고 IOT 데이터가 디지털화되면 다음 단계로 전달합니다 통합되어 IT 영역으로 넘어갈 준비가되었지만 데이터에 필요할 수 있음 데이터 센터에 들어가기 전에 처리해야합니다 IT 처리 시스템은 원격 사무소 또는 기타 에지 위치에 배치 될 수 있습니다

그러나 일반적으로 우리는 시설이나 장소에서 그들이 더 가까이에 거주하고 있다고 말했습니다 센서는 예를 들어 와이어 링 클로짓과 같이 통과하지 않고 펌프의 bration 데이터로 원시 처리하여 데이터를 집계하고 변환 할 수 있습니다 그것을 분석하고 각각에 관해서만 투사를 보냅니다 장치가 더 자세한 처리가 필요한 깔끔한 서비스 데이터에 실패하고 피드백이 즉각적이지 않아도 물리적 인 보다 강력한 IT 시스템이 분석 할 수있는 데이터 센터 또는 클라우드 기반 시스템 데이터를 안전하게 관리하고 안전하게 저장할 수 있습니다 센서 데이터를 다른 소스의 데이터와 더 잘 결합시켜야합니다

통찰력 4 단계 처리는 클라우드 또는 전제 조건에서 수행 될 수 있습니다 하이브리드 클라우드 시스템이지만 그 단계에서 실행되는 처리 유형은 그대로 유지됩니다 플랫폼에 관계없이 동일하므로 IOT 솔루션 아키텍처였습니다 이제 우리는 다른 IOT 개발 보드를 살펴볼 것입니다 우리는 Arduino에서 시작하여 Arduino는 오픈 소스 플랫폼입니다

전자 프로젝트를 구축하기 위해서는 물리적 프로그래밍 가능 회로 보드 및 소프트웨어 또는 IDE의 조각을 누른 다음 우리는 라즈베리 파이 나무 딸기 파이 원래 교육용으로 설계된 신용 카드 크기의 컴퓨터이며 1981 년 영국 BBC 마이크로에서 영감을 얻은 이유는 단일 보드 컴퓨터가 약 700MHz의 ARM 프로세서가 탑재 된 Broadcom의 칩 시스템 그리고 256에서 512 메가 비트 램의 가격은 파이 모델의 경우 약 35 달러이며, 많은 온라인 및 실제 매장을 통해 구입할 수 있으며 인텔 Galileo Intel Galileo는 Arduino 인증 제품 중 첫 번째 제품입니다 Intel x86 아키텍처 기반의 개발 용 부츠입니다 제조업체 및 교육 커뮤니티 인텔을 기반으로 한 최초의 보드입니다 방패와 호환되는 하드웨어 및 소프트웨어 펜이되도록 설계된 아키텍처 당신이 알고있는 Arduino를위한 디자인 r3 IOT에 사용되는 일부 개발 부츠의 복용량 이제 우리는 진행할 것입니다 첫 단계가 될 수 있도록 라즈베리 파이를 구성하는 방법을 이해해야합니다

거기에 나무 딸기 파이 도트 org에서 운영 체제가 다운로드 다운로드 그래서 우리는이 raspbian을 다운로드해야 할 것입니다 운영 체제 다운로드 후이 zip 파일을 다운로드합니다 운영 체제가 SD 카드에로드해야하기 전에 우리는 SD 카드를 포맷해야하므로이 사이트의 SD 카드로 갈 것입니다 도트 org는 SD 카드 형식을 다운로드 할 수 있습니다 이제 소프트웨어를 사용할 수 있습니다

Windows 및 Mac 시스템 모두에서 사용할 수 있으며 Windows 시스템을 사용하고 있으므로 다운로드 할 수 있습니다 Windows 용 라이센스 계약에 동의하겠습니다 우리가 필요로하는 SD 카드를 포맷 한 후에 다운로드가 시작됩니다 운영 체제를 SD 카드에 플래시 할 수있는 디스크 이미 저 우리는 sourceforgenet에 가서 win32 디스크 이미 저를 다운로드 할 것입니다

다시 다운로드를 클릭하면 다운로드가 시작됩니다 그래픽 데스크톱 공유 시스템이 필요합니다 그래픽 사용자 인터페이스를 사용하는 Raspberry Pi는 진짜 VNC입니다 GUI를 사용하여 Raspberry Pi와 함께 작업 할 수있게 해주는 소프트웨어 BNC 뷰어를 다운로드하면 다운로드가 시작되고 위의 단계를 통해 SD 카드를 라즈베리 파이에 삽입 할 수 있습니다 전원 케이블을 PI에 연결하고 전원 케이블을 PI가 개방형 Wi-Fi 네트워크 검색을 시작할 것이므로 우리가 할 일은 우리 시스템에서 핫스팟을 켜면 Raspberry Pi가 우리의 시스템에 연결됩니다

컴퓨터의 Wi-Fi와 일단 컴퓨터의 Wi-Fi에 연결되면 Raspberry Pi의 동적 IP 주소를 볼 수 있습니다 IP 주소를 입력하고 대화 상자 나 뷰 NC 뷰어에 내려 놓습니다 이것은 우리에게 Raspberry Pi로 작업 할 수있는 그래픽 사용자 인터페이스를 제공합니다 그러니 가자 그러면 내가 설정으로 가서 라즈베리를 보자

Pi는 이미 내 Wi-Fi 네트워크에 연결되어 있으며 동적 IP입니다 라즈베리 파이의 주소를 입력하면이 IP 주소를 받아 들일 것입니다 이제 VNC 뷰어의 대화 상자가 나에게 GUI를 제공합니다 – ok transferee 이제 스마트 의자의 개념을 이해하고 이해합니다 똑똑한 의자를 사용하면 앉아있는 것보다 훨씬 더 많은 것을 할 수 있습니다 똑똑한 응용 프로그램을 사용하면 자녀가 전기를 절약 할 수 있습니다

그리고 에어컨 비용은 클라우드에서 실행되는 프로그램이 될 것입니다 사무실 바닥에있는 모든 좌석이 지정된 시간 동안 센서가 의자에 센서를 조명 및 공조 시스템에 설치하고 전원을 켜십시오 똑똑한 의자를 다른 용도로 사용하지 않으면 우리가 상당히 큰 강당에서 특정 좌석을 찾는 강당은 홀이 부분적으로 만 채워지고 사람들이 공석에 대한 지식을 지키면 관객에게 엄청난 도움이 될 것입니다 지정석이 없다 좌석 점유에 대한 지식 또한 행사를 제공 할 것이다

좌석 점유 및 출석 패턴에 대한 데이터가있는 조직자 또 다른 재미있는 시간에 당신은 당신의 상사 밑에 IOT 장치를 둘 수 있습니다 귀하의 상사가 기내에 있는지 여부와 언제 귀하가 알 수 있도록 의자 그는 너 주위에 있지 않아서 행복하게 낮잠을 자고있어 그래서 우리 자신의 IOT 기반의 마처를 만들자 라스베리 파이는 Smasher를 만들어야 만했던 이래로 그 감각에는 8 가지 특징이있었습니다 8 개의 RGB LED 매트릭스와 미니 조이스틱 및 센서를 연결하는 자이로 스코프 가속도계 자력계 온도 센서 습도 센서 및 기압계 압력과 이것이 우리가 알아낼 수있는 파이썬 코드입니다

의자가 비어 있거나 VNC 뷰어로 이동하여이 코드를 올바르게 이해하지 못하게하십시오 그래서 이것은 코드 모션이나 py입니다 그래서 우리가하는 일이 이해됩니다 우리는 감각 모자 패키지를 가져오고 있으며 감각 모자 패키지가 필요합니다 그래서 우리는 라스베리 파이 (Raspberry Pi) 꼭대기의 센스 모자로 작업 할 수 있습니다

우리는 또한 시간 패키지를 가져와 라즈베리 파이를 이 두 패키지를 가져온 후에 잠자기를하면 전체 코드를 내부에서 작성하고 있습니다 이 클래스는 센서 감지로 이름을 정하고이 클래스 안에 있습니다 감각 모자에서 값을 읽고 그 값을 감각에 저장 이제 우리가 할 일은 변수의 값을 계속 읽는 것입니다 가속도계에 저장하고 가속도 개체를이 개체에서 저장합니다 우리는 x 축 y 축과 z 축의 값을 취하여 XY와 Zed에 저장합니다

변수가 각각이 세 변수는 XY 및 z 축을 계산 한 후 x의 값을 10 진수로 반올림합니다 똑같은 장소에서 y 값을 소수점 이하 자릿수로 낮추면 우리는 말한 값을 첫 번째 소수점 이하로 반올림 한 후 인쇄합니다 x y & z의 값을 인쇄 한 후 x y & z의 값은 라즈베리를 넣을 것입니다 파이가 2 초 동안 잠을 자면 우리가이 일을하는 동안 값을 출력 할 것입니다 x y & z와 그 다음 나무 딸기 파이는 잠을 자고 자면 Z가 0보다 크거나 같으면 메시지가 표시됩니다

chain의 값이 0보다 작 으면 체인이 비어 있거나 다른 한편으로는 의자가 비어 있지 않다는 메시지가 나옵니다 비어 있고 그 축이 긍정적 인 것을 의미하지만, 누군가가 와서 의자에 앉아서 의자가 뒤로 젖혀지며 기울기 z 축은 이제 음의 값을 가지므로 메시지를 얻습니다 의자가 비어 있지 않으므로 터미널에서이 명령을 실행 해 봅시다 우리는 코드를 실행하거나이 명령을 사용하여 Python 모션 다트 py 및 코드 개가 작동하기 시작합니다 그래서 여기서 볼 수있는 것은 값입니다

XY와 Z의 값을 출력하고 xy & z의 값을 출력 한 후에 우리는 내 전화기에서 같은 코드를 실행하고 싶다면 의자가 비어있다 ssh 클라이언트가 필요합니다 그런 ssh 클라이언트는 Android와 iOS 휴대 전화를 종단 앱으로 사용할 수 있도록 다음과 같은 목적으로 내 안드로이드 폰을 다운로드 한 후에이 코드를 실행 해 보겠습니다 당신이 볼 수 있듯이 지금 전화는 내 전화에 모션 코드를 py 코드를 실행했습니다 그래서 나는 xy와 z 축 값을 얻는다 의자가 비 었음을 알려주는 메시지가 지금 내 친구가 올 것입니다

내 친구가 우리가 보는 의자에 앉아서 의자에 앉는다 z 축의 값에 변화가 있고 메시지에도 이제 우리는 의자가 비어 있지 않으므로 우리는 전화의 종착역의 도움으로 스마트 의자의 개념 그래서 우리는이 비디오가 끝날 때까지 우리를 이해함으로써 시작했습니다 정확히 무엇입니까 그리고 우리는 다음 인터넷의 진화를 봐 우리는 IOT 아키텍처를 살펴본 후 다른 IOT를 살펴 봅니다 우리가 우리의 라즈베리 파이와 모션 닷 P UI 코드를 이해했습니다 의자에서 발견 된 UI 코드는 비어 있습니다

비디오를 좋아하길 바래서 고맙다 당신

How to Become a Data Scientist in 2019? | Learn Data Science | Data Science Tutorial | Intellipaat

데이터 과학의 세계에 오신 것을 환영합니다 데이터 과학은 최근 몇 년간 연구의 트렌드 분야였습니다

이는 우리가 지속적으로 생성하는 데이터의 양과 컴퓨팅 성능 이는 기술 발전으로 가능합니다 그러나 데이터 과학이란 무엇입니까? Uber에서 타는 것을 예약 할 때 어떤 일이 일어나는지 생각해보십시오 휴대 전화에서 Uber 앱을 열고 어디로 가고 싶은지 앱에 알립니다 우버는 가장 가까운 택시를 찾으려고합니다

그 이후로가는 길은 당신을 데리러 목적지로 데려다줍니다 간단했다 그러나 배경에서는 겉으로보기에는 단순한 작업이 산을 모아서 수행됩니다 다양한 소스의 데이터 전화기,지도 및 교통의 역사적인 흐름과 놀이기구에 대한 수요와 마찬가지입니다 이 데이터로 현대 컴퓨터는 가장 가까운 운전자를 계산하도록 프로그래밍되어 있습니다

귀하의 위치와 목적지로가는 가장 좋은 경로 그것이 걸리는 시간과 당신이 지불해야 할 시간 즉 이것은 데이터 과학으로 가능하게됩니다 데이터 과학에는 수많은 다른 응용 프로그램도 있습니다 그것은 통계의 교차점에 있으며, 데이터 분석 및 기계 학습

함께 일하는 과학적 방법, 모델 및 알고리즘의 조합입니다 데이터에서 실행 가능한 비즈니스 통찰력을 추출합니다 미국은 140000 ~ 190000 명의 사람들이 부족한 상태에 처해있다 분석 기술 효과적인 의사 결정을 내리기 위해 큰 데이터를 분석 할 수있는 500 만 명의 관리자가 있습니다

데이터 과학자의 평균 급여는 약 118000 달러입니다 그래서 직업으로서의 데이터 과학에 여전히 관심이 있습니다 계속해서 누가 데이터 과학자가 될 수 있는지에 대해 자세히 알아보십시오 데이터 과학자가 중요한 이유

데이터 과학 라이프 사이클이란 무엇입니까? 얼마나 큰 데이터가 데이터 과학 혁명을 주도하고 있습니다 데이터 과학 경력 전망 데이터는 우리 세대의 석유입니다 데이터 과학은 오늘날의 디지털 기반 세계에서 필수 불가결 해지고 있습니다 기업이 소비자 행동을 이해하고 메시징을 미세 조정하며 새로운 시장을 확보하도록 지원 몫 데이터 과학자가되기

데이터 과학자가되기 위해 기술적 배경을 가질 필요는 없습니다 당신이 필요로하는 것은 심층적 인 지식과 수학, 분석적 추론 능력 많은 양의 데이터로 작업 할 수 있습니다 그것은 또한 강한 지적 탐구를하는 데 도움이 될 것입니다 데이터 엔지니어링, 시각화 능력 및 훌륭한 비즈니스 통찰력에 대한 지식 기술적이지 않은 배경에서 왔을 경우 R을 사용할 것입니다

기술적 인 배경을 가진 사람이라면 python과 r을 사용할 수 있습니다 가능성을 이해하고 올바른 질문을하는 것입니다 최고의 답을 찾으십시오 모든 회사에 데이터가 넘쳐납니다 그리고 그들은 그들이 무엇을 해야할지보다 많은 데이터를 가지고 있습니다

따라서 업계의 업종에 관계없이 데이터 과학은 조직의 미래 성공 데이터 과학자들은 비용 절감, 새로운 시장 진출 및 고객 인구 통계에 대한 새로운 방법을 모색합니다 새로운 제품 또는 서비스 출시 데이터 과학은 또한 아동 복지 및 예측과 같은 사회적 및 의학적 응용을 발견했습니다 진단 그래서

일반적인 데이터 과학 라이프 사이클은 어떻게 생겼습니까? 데이터 발견 단계는 관련 데이터의 다른 소스에 대한 검색을 포함합니다 구조화 된 데이터 또는 구조화되지 않은 데이터 그런 다음 특정 데이터 세트를 분석에 포함시키는 결정을 내립니다 데이터 준비에는 서로 다른 소스의 데이터를 공통 형식으로 변환하는 작업이 포함됩니다 데이터를 표준화합니다

이상 징후를 조사하고 함께 작업하는 것이 더 적절하도록하십시오 데이터 과학 모델은 통계, 물류 및 선형 회귀를 사용하여 작성됩니다 다른 수학적 기술들 사이의 미분 적분 적분법 R, Python, SRS, SQL, Tableau 등의 도구를 사용할 수 있습니다 실전 단계에서 일을 얻는 것은 데이터 모델의 효율성 및 결과를 제공 할 수있는 능력

모델을 다시 작성해야하는 경우 모델 작동 여부를 확인해야합니다 데이터 과학자는 다양한 팀과 연락하여 원활하게 의사 소통 할 수 있어야합니다 조직의 핵심 이해 관계자 및 의사 결정권자들에 대한 그의 발견 데이터 과학의 또 다른 중요한 요소는 일련의 규칙 과정 인 알고리즘입니다 특정 문제를 해결할 수 있습니다 중요한 데이터 과학 알고리즘에는 회귀 분석, 분류 및 클러스터링 기법

결정 나무와 임의의 숲 감독, 감독 및 보강 학습과 같은 기계 학습 기술 이 외에도 조직이 자신의 서비스를 제공하기 위해 개발하는 많은 알고리즘이 있습니다 독특한 필요성 빅 데이터는 데이터 과학 혁명에 의해 주도됩니다 빅 데이터는 데이터 과학의 부상을 주도하는 엔진입니다

Hadoop은 대부분의 조직에서 널리 사용되는 큰 데이터 프레임 워크입니다 Hadoop은 데이터의 처리와 저장이 모두 분산 된 방식으로 작동합니다 범용 하드웨어에 분산되어 있습니다 Hadoop은 쉽게 확장 가능하고, 경제적이며, 내결함성이 있으며 안전합니다 Hadoop은 데이터 저장 및 사용을위한 Hadoop 분산 파일 시스템 또는 HDFS로 구성됩니다

데이터 처리를 위해 map reduce 또 다른 새로운 프레임 워크는 Apache Spark입니다 Apache Spark는 최대 100 배 빠른 속도로 선전되었습니다 지도 축소보다 불꽃

반복 처리가 빠르고 효율적으로되도록 데이터와 RAM을 저장합니다 또한 데이터 처리를 위해주기적인 그래프 또는 DAG를 직접 배치합니다 데이터 과학자들에게는 엄청난 수요와 공급 불일치가 있습니다 이로 인해 데이터 과학자들의 급여가 업계 최고입니다 아마존, 구글, 페이스 북, 마이크로 소프트와 같은 최고 기업들은 다른 사람들과 기술 공간을 같이한다

엑손 모바일 Visa, Boeing, General Electric 및 Bank of America는 적극적으로 데이터 과학자를 고용하고 있습니다 이제 데이터 과학, 왜 데이터 과학이 필수적인지에 대해 배웠습니다 데이터 과학 라이프 사이클, 빅 데이터와의 관계 이 유망한 영역에서 여행을 시작하고 경력이 크게 성장할 때입니다 Intellipaat은 선도 산업의 도움으로 설계된 데이터 과학 교육 과정을 제공합니다

데이터 수집, 탐험, 논쟁의 핵심 기술을 배우는 데 도움을주는 전문가 및 데이터 시각화 또한 통계 분석, 예측 모델링, 기계 학습을 마스터하게됩니다 데이터 과학자에게 필요한 모든 기술이 필요합니다 고맙습니다 문의 사항

언제든지 저희에게 연락하십시오

Introduction to Big Data and the Data Lifecycle

Jack Van Horn : 안녕하세요 우리가 여기에서 시작해야하는지 궁금 하네

GoToMeeting 사이트를 클릭 해 주셔서 감사합니다 우리는 GoToMeeting 사이트 모두를 잡을만큼 충분하지 않을거야 누가 들어오는가 그리고 내가 가서 그 사이트에 대한 발표를 할거야 여기 잠깐

그러나 나는 더 이상 아무것도 지연하고 싶지 않았습니다 우리가 Musen 박사로부터 확실히 듣고 싶기 때문입니다 우리는 Bourne 박사와 다른 사람들의 의견을 듣고 싶습니다 그래서 일을 진행하고 싶습니다 미심쩍은 점이 없으면 Michelle Dunn 우리가 시작하기 전에 어떤 종류의 발표라도하고 싶습니다

Michelle Dunn : 아닙니다 시작할 준비가 된 것 같습니다 잭 밴 혼 박사 : 환상적입니다 그래서 나는 우리가 일을 끝낼 것 같아 스탠포드 대학의 마크 무 센 박사에게 소개에서 말하려고한다

빅 데이터 및 데이터 수명주기 Dr Bourne이 가능하다면, 사전에, 아마도 그것이 우리가 시작하려는 방법 일 것입니다 Phillip Bourne : 네, 여기 있습니다 고마워, 잭, 그냥 두 가지 일을 말해 보자

빅 데이터 지식의 첫 강의에 오신 것을 환영합니다 데이터 과학의 기초 시리즈 그것은 분명히 매우 흥미 롭습니다 우리는 큰 가상 투표율을 가지고 있습니다 나는 내가 좋은 날을 말해야한다고 말할 것입니다

당신이있는 시간대를 모른다 그리고 당신이 어디에서 왔는지 하지만 우리와 함께 해줘서 고마워 나는 이것이 이미, 우리가 본 것 같아 이것은 매우 성공적인 이니셔티브가 될 것입니다 그래서 저는 National의 데이터 과학 부국장입니다 건강 연구소

그리고 빅 데이터 지식 구상 (Big Data Knowledge Initiative)을 조정합니다 우리는이 일련의 강좌 프로그램을 종합했습니다 그런 종류의 데이터 과학을 포괄적으로 다루고 있습니다 그리고 분명히, 이것에 많은 관심이 있습니다 그리고 그들은 다음 9 주 동안 일주일에 한 번씩 발생할 것입니다

개월 당신이 이것에 온다면, 이미 일정이 있다고 가정합니다 Mark를 소개하기 전에 잭과 훈련 조정 센터에 감사드립니다 이 시리즈 구성에 앞장서 기 위해 그리고 Michelle Dunn은 우리 사무실에 있습니다

이걸 함께 모으고, 가지 따라서 교육 간의 공동 협력입니다 조정 센터 및 센터 조정 센터, NIH Mark를 소개하겠습니다 나는 그에게 긴 소개를하지 않을 것이다

그는 가치가 있지만 하지만 그는 짧은 사람에 만족할만한 사람입니다 무대 설정에 Mark에게 감사드립니다 전체 시리즈 및 물론 물론 시리즈의 계획에 관여하고있다 정말 고맙습니다

나는 오랫동안 Mark를 알고 있었다 그리고 그는 정말 멋진 작품을했습니다 그리고 나는 모든 세부 사항에 들어 가지 않을 것입니다 하지만 빨리 말해줘 현재 의용 정보 과학 교수 스탠포드 대변인, 스탠포드 대 감독 의 생명 정보 과학 연구 센터

그의 연구는 많은 분야, 특히 지능을 다루고 있습니다 시스템, 재사용 가능한 온톨로지, 데이트 출판을위한 메타 데이터, 생물 의학적 의사 결정 지원 그는 다양한 방식으로 인정 받았다 Donald Lindbergh의 수령인을 포함하여 혁신 정보학 및 미국 의학 상 정보학 협회, 미국인에게 강의 의학 정보 학회 및 협회 미국 의사의 그리고 저널의 창립 공동 편집인이기도합니다

응용 온톨로지의 마크,이 일에 동의 해 주셔서 감사합니다 우리 모두는 매우 기대하고 있습니다 네가하는 말에 고마워, 또 Mark Musen : 고마워요, 정말 고마워요

이것은 오히려 굉장한 책임이다 이 시리즈의 첫 번째 강의를 제공합니다 그리고 저는 실제로 매우 흥분합니다 내가 생각하기에 나를 따라갈 것입니다 심지어, 아마도, 이 일반적인 개요보다 흥미 롭습니다 그러나 프레임을 정렬하는 것이 매우 중요하다고 생각합니다

우리가 앞으로 몇 주 동안 무엇을 할 것인지, 데이터 과학에 대한 전반적인 소개, 우리가 가고있는 곳과 들판이 향하고있는 곳 아시다시피, 이것이 첫 번째 강의입니다 한데 모인 전체 시리즈의 BD2K 교육 조정 센터 (BD2K Training Coordinating Center) 센터 조정 센터 (Centers Coordinating Center) NIH 직원과 약간의 도움을 받았습니다 나에게서 그리고 우리는 매우 기쁘게 생각합니다

당신에게 데이터 과학 강의의 전체 시리즈를 줄 수 있습니다 분명히 이번 분기에 매우 흥미로울 것입니다 그 후 올해의 나머지 기간 동안 계속됩니다 오늘 아침에하고 싶은 일은 많은 것들을 예고하기 다른 스피커에서 들으실 수 있습니다 왜 그렇게 많은 흥분이 있는지 감을 줄 것입니다

데이터 과학에 대해, 그리고 왜이 분야가 중요한지에 대해 그리고 그것은 분명히 중요합니다 세상이 변하기 때문입니다 우리는 아마 우리가 생각하는 방식으로 데이터의 관점에서 생각합니다 결코 전에 한 번도 우리는 데이터를 측면의 일종으로 생각했습니다

과학 연구의 효과 이제 우리는 데이터가 1 ​​급 엔티티임을 인식합니다 또한 신중하게 고려할 필요가있는 신중한 생각, 신중한 계획 그리고 내가 오늘 아침에하고 싶은 일 그 계획 중 일부가 무엇인지에 대한 감각을 줄 것입니다 최대한의 효과를 얻으려면 있어야합니다

결과로 얻은 데이터 종류 과학 수사의 많은 것들이 웹 주위에 떠 다니고 있습니다 데이터로 인해 세상이 어떻게 변화하고 있는지 PBS에 최근 작품이 있습니다 모든 데이터 처리와 같은 우리는 지난 2 년 동안 모든 데이터보다 우리는 지난 3,000 년 동안 우리가 해냈습니다 또는 우리는 현재 많은 정보에 노출되어 있습니다 우리의 15 세기 선조들이 드러나면서 하루 만에 평생 동안

그리고 이틀 동안 인류 지금만큼 많은 데이터를 생성하고 있습니다 인류의 여명기에서 2003 년을 통해 생성되었습니다 분명히 놀라운 문장입니다 솔직히 아무도 꽤 잘 모릅니다 이 특정 문장을 지원하는 데이터입니다

그러나 그것은 왜 세계가 인식하고 있는지에 대한 감각을 제공합니다 우리 주변의 맹목적인 정보 슬롯 분명히 우리가 질적으로 살아가는 방식을 바꾸고 있습니다 그리고 생물 의학 – 우리는 발병합니다 [INAUDIBLE] 혁명의 결과로 더 많은 데이터가 만들어졌습니다 누구나 상상할 수있는 것보다

임상 의학에서 우리는 전자 건강의 출현을 보았습니다 현재 데이터가 채굴되고있는 레코드 모든 종류의 방법으로, 우리는 우리가 항상 우리가 필요한 기술을 가지고있다 정보의 종류를 알기 위해 생물 의학에서 우리 주위에오고 있습니다 빅 데이터라는 용어는 물론 모든 사람의 입에 있습니다 동시에 단어이기도합니다

과부하가 많습니다 그것에는 많은 연관이 있습니다 의도적으로 큰 데이터를 정의하려고하지는 않습니다 나는 그렇게하기가 어렵다고 생각한다 그러나 그것을 설명하는 것은 매우 쉽습니다

그것의 특성의 점에서 그리고 자주 언급되는 3 개 데이터 양의 개념입니다 단지 많은 데이터, 속도, 데이터가 매우 빠르게 우리에게 다가가는 방식, 다양성, 데이터의 이질성 우리가 얻는 것 그리고 그것에, 사람들은 종종 아이디어를 가졌습니다 진실성에 대한 의문이있다

우리는 많은 양의 데이터를 얻습니다 우리는 항상 데이터의 진실 가치를 알지 못한다 우리가받은 것 그리고 볼륨은 내가 여기서 말하려고했던 것이 아닙니다 그러나 예, 나는 다섯 번째 브이를 나중에 기억할 것입니다

이것은 IBM의 요약 슬라이드를 요약 한 것입니다 그들이 큰 데이터를 보는 방식이라고 믿는 것 그리고 나는 그것이 반드시 중요하지 않다고 생각합니다 슬라이드에서 제공하는 모든 예를 살펴보고, 그러나 큰 데이터 혁명이 얼마나 큰 것인지 분명히하기 위해 우리가 과학에서하는 일뿐만 아니라 업계에서 무슨 일이 일어나고 있는지 그리고 우리는 사회 전반에 걸쳐 데이터가 어디에 있는지 파악할 수있는 욕구가 커지고 있습니다

데이터를 다루고, 준비 할 수 있어야합니다 미래에 우리가 처리하는 데이터의 양 함께하면 더 커질 것입니다 큰 데이터에 대해 생각하기 쉽지만 큰 단어를 강조하고 생각해보십시오 양적 차이에 관해서, 나는 데이터 과학에서 무엇이 중요한지 생각해보십시오 데이터 때문에 – 그들이 그렇게하기 때문에 세상을 변화시키고 있습니다

질적으로 영향을 미치고 있습니다 갑자기 우리 서버가 더 이상 존재하지 않는 상황에 처해 있습니다 우리가 사용한 모든 데이터를 저장할 수 있습니다 한 장소에 보관할 수 있습니다 우리는 새로운 솔루션에 대해 생각해야합니다

하드웨어 및 데이터 시스템의 종류면에서 그 하드웨어 지원 우리는 새로운 알고리즘에 대해 생각해야합니다 갑자기 한 번에 데이터를 처리 할 수 ​​없기 때문입니다 우리는 갑자기 볼륨으로 인해, 속도, 그리고 데이터에 관한 모든 것, 우리는 그것들을 따라갈 수있는 알고리즘을 가질 필요가 있습니다 그리고 아마도 가장 중요 할지라도, 뭔가는 아니지만 많은 언론을 얻는다면, 우리가 시대로 나아가고 있다는 것입니다

우리는 데이터 주위에 팔을 뻗을 수 없습니다 우리는 데이터를 볼 수 없습니다 우리는 이해할 수없고, 직관적으로, 데이터가 모두 무엇을 의미하는지 따라서 사실을 처리 할 수 ​​있어야합니다 우리의인지 능력이 긴장되어있다

거래 할 능력이 없기 때문에 데이터 시각화 및 직관적 인 작업 수행 데이터의 이해, 우리는 종종 순전히 우리의 알고리즘을 기반으로 이동하려면, 분명히 우리의 능력을 제한한다 우리가하고있는 일에 대한 직관을 발전시켜야합니다 이것은 생성 된 측면입니다 Forrester Research가 무엇을 확인하려고하는지 필요한 모든 다양한 기술 데이터 혁명을 관리 할 것인가? 이 슬라이드를 자세히 살펴 보지 않을 것입니다 왜냐하면, 솔직히, 슬라이드에있는 많은 것들 회담에서 다루어 질 것입니다

이 연재회에서 여러분이 듣게 될 것입니다 그러나 나는 강조하는 것이 중요하다고 생각한다 이 슬라이드의 내용은 Forrester가 믿는 사실입니다 우리는 많은 인프라에서 상당한 성공을 거두었습니다 큰 데이터를 관리하는 데 필요합니다

흥미로운 점은 이러한 모든 큰 성공 매우 빠르게 발생합니다 그리고 다음 단계에 도달 할 시간 다음 단계는이 영역들 각각에 있을지도 모릅니다 그다지 길지 않습니다 그리고 인프라에 관한 한, Forrester는 우리가 발전하고 있다고 주장합니다

그리고 확실히, 생물 의학에 관해서는, NIH는 몇 년 전에 그 중요성을 인정했습니다 큰 데이터 문제를 해결할 생물 의학에서 우리를 대면하고 있습니다 그리고 아시다시피, 지식에 대한 빅 데이터의 생성 이니셔티브 및 이번 세미나 시리즈 그 이니셔티브의 일부인 NIH의 일원으로 중요한 사업을 해오 고있다 생물학과 의학을 다음 시대로 옮길 수 있어야합니다 그래서 저는 많은 흥분이 있다고 생각합니다

과장된 이야기가 많이 있습니다 그러나 또한 많은 진전이 있습니다 그것은이 지역에서 만들어지고 있습니다 그리고 그것은 명백하게 중요한 것입니다 우리가이 세미나에서 이야기 할 내용입니다

오늘 아침에하고 싶은 것은 이야기로 시작하는 것입니다 내 이야기는 기본적으로 제 동료 중 한 명입니다 스탠포드 (Stanford)의 교수 인 퍼브 샤크 트리 (Purvesh Khatri) 누가 자신을 데이터 기생충으로 묘사했는지 그리고 나는 너에게주는 것이 중요하다고 생각한다 Purvesh가하는 일의 종류를위한 감, 데이터에 대한 많은 우려를 유발한다고 생각하기 때문에 및 데이터 수명주기에 대해 알아 보겠습니다 나중에 시간에 도착

따라서 Purvesh는 주로 기능 유전체 데이터에 관심이 있습니다 그는 모든 종류의 마이크로 어레이 데이터가 있다는 것을 알고 있습니다 유전자가 어떻게 얻어지는지를 이해하는데 매우 유용 할 수 있습니다 응답으로 켜지거나 꺼졌다 다양한 생물학적 신호들

그리고 그는 모든 데이터가 이러한 종류의 실험에 해당합니다 적어도 미국에서 공연된다 NCBI의 Gene Expression Omnibus 또는 GEO에서 이용할 수 있습니다 GEO에 가서이 큰 데이터베이스에서 정보를 찾을 수있을거야 기본적으로 모든 마이크로 어레이 실험은 적 완료되었습니다

그리고 Purvesh는 명시적인 욕구로 GEO에 간다 그가 그 데이터로부터 무엇을 배울 수 있는지 이해한다 다른 수사관들이 수집했다 GEO 데이터 저장소에 보관됩니다 그래서 Khatri는 기본적으로 경력을 쌓고 있습니다

다른 사람들의 데이터를 연구하는 것 그리고, 기본적으로 그것이 의미하는 것은 공개적으로 사용 가능한 데이터를 살펴보면 웹상에 순서대로 나와있어 다른 종류가 무엇인지 이해하기 조사관들이 고려하고있는 실험 조건들, 어떤 종류의 현실 세계 이질성이 나타날지 그들의 데이터 세트에 그는이 모든 일을하지 않고도 할 수있다 자신의 실험을 수행합니다

실험적 비용은 없습니다 초기 데이터 수집 측면에서 그는 인간 샘플을 볼 수 있습니다 그리고 그는 IRB의 승인에 대해 걱정할 필요가 없다 이미 완료 되었기 때문입니다 Khatri가 한 일은 파이프 라인을 만드는 것입니다

GEO에서 데이터 세트를 검색 할 수있게 해줍니다 게놈 신호를 찾고 확인하는 유효성 확인 데이터 세트의 신호를 확인한 다음 그는 테스트 세트에서 [INAUDIBLE] 그런 다음 유효성 검사 데이터에서 해당 신호를 확인합니다 세트 그리고 이것이 그가 할 수있게 해준 것은 그가 기존의 정보를 유추 할 수 있는지 알아보기 위해 고려되지 않은 microarray 연구 그 연구를 수행 한 연구자들에 의해 처음에는 발견을 할 수있는 곳에서 기존 데이터 세트에 추가 실험을해야합니다 그리고 그 일의 흐름의 윤곽 슬라이드의 오른쪽에 표시됩니다

그리고 그는이 접근법의 가치를 입증했습니다 다양한 영역에서 요즘 많이 언론에 나왔어 패혈증의 진단입니다 그래서 패혈증은 기본적으로 반응입니다 아주 몸이 될 수있는 감염 처음에는 감지하기 어렵다

다른 많은 일반적인 종류와 혼동 될 수 있습니다 입원 환자에서 발생하는 이상 보통 혈액에서의 감염에 대한 반응입니다 그러나 비 전염성 원인이 많이있을 수 있습니다 패혈증과 비슷하게 보일 수있는 염증이 있습니다

그리고이 진단을 내놓을 때까지 당신이이 진단을하지 않으면 기본 감염을 치료하면 환자가 사망합니다 Purvesh가 한 것은 외출하는 것입니다 GEO, Gene Expression Omnibus, 임상 문제로 기능 유전체 데이터를 살펴 봅니다 유전자 발현에 변화가 있는가? 패혈증의 출현을 예측할 수 있습니까? 그리고 Purvesh는 거기에 갔고, 약간의 샘플을 발견했습니다 데이터, 초기 샘플을 보는 일부 유효성 확인 데이터 그는 663 개의 샘플로 9 개의 코호트를 조사한 결과, 확인 된 후보 유전자, 후보 유전자 82 개, 패혈증 발병의 암시가 될 수 있습니다

궁극적으로 검증 된 11 개의 유전자 그의 시험에서 중요한 것으로 나타났다 세트와 그의 검증 세트 그리고 그 유전자들을 볼 때, 그는 정말 경이로운 ROC 곡선을 보여줍니다 이 유전자들은 매우 민감하고 민감하며, 패혈증이 임박했을 때 켜져있게됩니다 그리고 그는 패혈증의 출현으로 효과를 나타낼 수 있습니다

지나가는 날마다 유전자가 켜지 게됩니다 더 큰 정도 Purvesh의 숫자에 대해서는 자세히 설명하지 않겠습니다 그러나 그들은 단지 절대적으로 흥미 롭습니다 이것은 식별하기위한 방법이기 때문에 건강 상태를 진단하는 새로운 방법 순전히 다른 사람들의 데이터를 바탕으로 공개 저장소에 저장됩니다

Purvesh는이 접근법을 취했습니다 초기 패혈증의 진단뿐만 아니라, 결핵 진단뿐만 아니라, 활동성 결핵과 질병을 구별 불에 타서, 실제로하는 것은 매우 어렵습니다 임상 적으로, 구별되는 바이러스 성 호흡기 세균성 호흡기 감염으로 인한 감염 – 일반적으로 나타나는 또 다른 매우 중요한 임상 적 도전 환자의 과량의 약물 치료에서 누군가가 생물이라는 것을 안다면 피할 수있다 처음부터 그는이 같은 접근법을 사용하여 장기 이식 거부 및 기타 어려운 진단 임상 의학 문제

이러한 모든 도전 과제는 임상 적으로 어렵습니다 그러나 쉽게 찾을 수 있습니다 유전자 발현의 변화 그리고이 모든 모험에 대해 가장 흥미로운 점은 Purvesh가 겪어 온 것은 그가 결코 피펫을 만졌다 그는 결코 마우스를 죽일 필요가 없다

그는 실제로 실험을하지 않아도됩니다 해당 데이터로 연결됩니다 실험을 해본 결과, 데이터를 만들기 위해 필요한 실험에 가치가있을뿐만 아니라 그들이 계획하고 있지만 미래에도 귀중한 것 과학적 연구 따라서 Purvesh Khatri와 같은 데이터 기생충이 될 수 있습니다 찾을 수있는 데이터가있는 경우에만 일부 공개 저장소에 있습니다

일종의 검색 시설을 통해 찾을 수 있습니다 표준 형식으로 할 수 있어요 당신이 분석하고 계산할 수있는 중요한 것은 데이터 그 자체가 스스로 설명하는 것이라면 그래서 당신은 어떻게 데이터를 이해하는지 알 수 있습니다 그것들은 정보의 무리가 아닙니다 오히려 그들은 실제로 스스로를 기술 할 수있다

란이 무엇을 의미하는지 이해해야합니다 그리고 그 열을 이해할 수 있습니다 신중한 기획, 조직, 그리고 청지기 직 그리고 그들은 기본적으로 데이터 자체가 만들어지는 방식으로 만들어집니다 재사용되고 실험을 오래 유지하려는 의도 그 (것)들은 수집되었다

그리고 그게 핵심이라고 생각합니다 낡은 사상 학교에서, 우리는 데이터가 측면이라고 생각할 수 있습니다 우리 실험의 효과 우리는 우리의 논문을 발표합니다 그리고 우리가 발표 한 논문은 우리 연구의 결과입니다

그리고 저는 현재, 조류가 변화하고 있다고 생각합니다 우리는 데이터 자체에 대해 생각하고 있습니다 우리 수사의 결과물 인 것처럼 또한 우리는 데이터가 우리가 계획 한 아이디어로 시작합니다 데이터로 처리하고, 데이터를 수집하며, 데이터에 대한 품질 보증을 수행하며, 데이터가 무엇인지 이해할 수 있도록 해당 데이터를 설명합니다 그 (것)들을 기록 보관소에서 보존해서, 다른 사람들에게도 가능하다는 것을 확인하십시오

데이터를 발견하고, 통합하고 사용 가능한 다른 데이터가있는 데이터, 새로운 종류의 분석을 수행합니다 우리가 할 수있는 새로운 통찰력으로 인도 할 수 있습니다 새로운 종류의 실험 이 생애주기를 시작하고, 실험을 계획하고, 데이터를 수집하고 품질 보증을 수행하는 등의 작업을 수행합니다 우리는 기본적으로 세상으로 옮겼습니다

실험은 정의로 시작하지 않습니다 우리가 따라야 할 프로토콜의 데이터 관리 계획의 정의로 프로토콜을 수행하기 위해 필요할 것입니다 데이터 그 자체를 우리가 계획하고있는 실험보다 오래 남아 있습니다 그래서 내가하고 싶은 것은 이 데이터 수명주기를 따라야합니다 이러한 다양한 단계가 무엇인지에 대한 감각을 얻으십시오

이 단계들 각각이 진행되고있다 당신이 할 얘기의 대상이 될거야 이 콜로키움 시리즈에 대해 나중에 들어보십시오 먼저 계획으로 시작한다고 말하면서 시작하겠습니다 그리고 우리의 작업을 안내하는 데이터 관리 계획은 기본적으로, 거의 모든 조사 기관에서 필요합니다

행정 명령의 NIH에서, 매년 50 만 달러 이상의 직접 비용이 소요되며, 데이터 관리 계획이 있어야합니다 지오 믹스 또는 시퀀스 데이터를 처리하는 경우, 데이터 관리 계획이 있어야합니다 그리고 솔직히, 당신이 똑똑하다면 데이터 관리 계획을 수립 할 것입니다 왜냐하면 데이터 관리 계획으로 많은 시간과 노력을 절약 할 수 있습니다

우리가 데이터를 가지고 무엇을 할 것인지를 알게함으로써 우리가 그들을 잡을 때 가장 중요한 것은 내구성을 향상시키는 것입니다 데이터의 장기적인 가치 그래서 Purvesh 같은 수사관들 이 데이터를 나중에 찾을 수 있으며 심지어 그 데이터로부터 올 수있는 새로운 종류의 추론들도 있습니다 내가 말한대로, 그들은 후원자에 의해 요구된다 유감스럽게도 데이터 계획이 필요하지만, 결과로 거의 검토되지 않습니다

최소한이 시점에서 피어 리뷰를 할 수 있습니다 그것은 바뀔 수 있습니다 하지만 지금 당장 요구 사항은 데이터 계획이 존재한다는 것입니다 동료 평가의 기준 그러나 그것은 거기에있다

그리고 솔직히, 최고의 프로젝트에서, 데이터 플랜은 시작시 한 번만 생성되며, 오히려 프로젝트 전체에서 재검토되고 업데이트됩니다 우리가 거래하고 있다는 것을 확인할 수 있도록 데이터를 적절하게 사용합니다 그 데이터 계획은 우리가 생각하고 있어야한다고 요구합니다 우리가 실제로하고있는 프로젝트는 무엇입니까? 이미 사용 가능한 기존 데이터는 무엇입니까? 우리가 실험에서 고려할 수 있기를 원하는 것입니까? 우리가 생성 할 새로운 데이터는 무엇입니까? 방법과 도구는 무엇인가? 데이터 수집을 위해서? 데이터를 수집하는 경우 어떻게 구성합니까? 데이터 저장 형식은 무엇입니까? 구조는 무엇입니까? 우리가 데이터를 저장하는 메커니즘은 무엇입니까? 허용해야 할 사용 권한 사람들이 데이터에 액세스 할 수 있습니까? 데이터를 백업 할 예정입니까? 희망을 갖고 얼마나 자주 백업 할 것이며, 어떻게해야합니까? 어떤 종류의 데이터 스크러빙, 또는 품질 보증, 우리가 예상합니까? 행정적, 법적 및 윤리적 문제는 무엇입니까? 우리는 인간 피험자 데이터를 다루고 있습니까? 우리는 어떻게 인간 피험자를 보호 할 것인가? 데이터를 어떻게 보관하고 게시합니까? 책임과 의무는 무엇인가? 참석할 여러 프로젝트 회원 중 데이터에 기여할 수 있습니까? 그리고 비용과 자원은 무엇인가? 이 실험을해야합니까? 많은 것들이

그것은 다소 힘든 일입니다 좋은 소식은 오픈 소스 도구가 쉽게 구할 수 있습니다 거의 모든 연구를 수행하는 DMP 도구가 있습니다

대학이 사용하는 것 같습니다 그리고 기본적으로 쉬운 방법이 많이 있습니다 템플릿을 사용하여 데이터 관리 계획 수립, 제안서와 함께 사용할 수 있는지 확인해야합니다 실험을하기도 전에 제출해야합니다 그리고 동시에, 이것들이 이용 가능하고 쉽게 있기 때문에 수정 가능, 그들은 우리가 우리의 데이터 관리 계획이 진화하고, 우리가 추가적인 합병증을인지 할 때 실험이 수행됨에 따라 그럼 우리는 데이터를 수집합니다

그리고 데이터를 수집 할 수 있습니다 gazillion 다른 방법으로, 왜냐하면, 솔직히, 거기 엄청난 양의 데이터입니다 그래서 우리의 데이터 관리 계획은 지침을 제공합니다 데이터를 다루는 방법을 이해할 수 있습니다 우리가 수집하는 것

그 데이터가 올 것인가? 실험실 관찰 에서요? 그들은 악기에서 직접 오는 것입니까? 그들은 우리가 할 수있는 조사에서 오는가? 인간 대상에게 투여 하는가? 연속적인 전자 신호에서 오는 것입니까? 그들은 분리 된 가치들로부터 왔으며, 마이크로 어레이 칩과 같은? 모든 종류의 데이터는 생체 의학에서 사용됩니다 그리고 우리는 그들을 한 곳에 모으는 방법을 이해해야합니다 그래서 우리는 그것들을 분석하기 시작할 수 있습니다 데이터는 새로운 실험에서 나온 것이 아닙니다 그러나 내가 일의 종류의 경우에 보여줬 듯이 Khatri가하는 Purvesh

그들은 온라인 리포지토리에서 올 수 있습니다 따라서 우리의 데이터 수집은 직접적인 실험에서 나온다 공개적으로 사용 가능한 데이터에서 데이터 수집 다른 수사관이 온라인에 제출하도록 설정합니다 그리고 때때로, 우리가 메타 분석을 다룰 때 또는 체계적인 리뷰를 통해 실제 데이터 세트가 아니라 다른 출판물에서 가져온 것입니다 그리고 그것은 출판물 자체를 모으고 있습니다

우리의 작업을 수행하기 위해 이제 9 월 30 일에 파스칼 가우 데 (Pascal Gaudet)의 데이터 큐레이터에 대한 강연 11 월 4 일에 우리는 데이터웨어 하우징에 대해 듣게 될 것입니다 Chaitan Baru에서 모든 종류의 이야기를 준비하십시오 이런 종류의 측면을 다룰 것입니다

데이터 수명주기 품질 보증은 라이프 사이클의 다음 단계 일종입니다 때로는 사람들이 데이터를 문지름이라고 부릅니다 그리고 그것은 사실 자체의 과학입니다 [INAUDIBLE]은 12 월 2 일에 이것에 대해 이야기 할 것입니다 우리는 데이터의 가치를 다시 확인하는 방법에 대해 이야기 할 것입니다

손으로 편집 할 수있는 데이터를 식별하는 방법 품질 문제를 신고해야합니다 우리가 통계를 사용하여 우리가 어디에 있을지 이해할 수있는 방법 데이터 특이점, 데이터의 위치를 ​​식별 할 수있는 방법 불가능한 데이터, 누락 된 데이터를 식별 할 수있는 방법, 누락 된 데이터의 값을 수정할 수도 있습니다 또는 그 대체 치를 처리하는 방법 기본적으로 전체 과학이 있습니다 원한다면, 우리의 데이터가 대개 오류가 가득 찼습니다

실제로 데이터를 공개적으로 사용하기 전에 해당 데이터에 대해 자체적 인 조사 기법을 적용하고, 우리가해야 할 일이있다 데이터가 우리의 기대를 충족시킬 수 있는지 확인하기 위해, 우리 자신을 위해 신뢰할 수 있어야합니다 따라서 우리는 전반적인 데이터 관리를 전반적으로 계획합니다 우리는 데이터를 수집합니다 우리는 품질 보증 및 세척을 수행합니다

그리고 나서, 우리는 우리는 데이터를 설명 할 필요가있다 그래서 우리는 데이터를 가지고 서랍에 붙일 수 없습니다 우리는 메타 데이터가 필요하다는 것을 인식 할 수 있어야합니다 Jason Scott이 말했듯이 메타 데이터 미래에 대한 사랑의 노트 길 아래로 데이터를 표현하는 것이 우리의 능력입니다

우리가 한 일을 알아낼 수 있습니다 그리고 우리는 다른 사람들이 데이터에 대해 생각하거나 데이터에 대해 생각하고 싶을 수 있습니다 데이터에 무엇이 있는지, 어떻게 그 데이터를 이해합니다 따라서 메타 데이터는 많은 것을 설명합니다 디지털 컨텐츠를 설명합니다

그래서 실제 속성은 무엇입니까? 데이터를 저장하는 파일 자체? 그들은 명확하게하기위한 메커니즘을 제공한다 수사관은 누구입니까? 그리고이 데이터에 관심을 갖는 이해 관계자는 누구입니까? 과학적 맥락이란 무엇인가? 그래서, 기본적으로, 왜 실험이 끝났습니까? 실제로 수집 된 데이터는 무엇입니까? 적용된 방법은 무엇입니까? 데이터 수집에 사용 된 도구는 무엇입니까? 악기의 종류,하지만 실제로는 실제 악기? 악기의 일련 번호는 무엇입니까? 데이터는 언제 어디서 수집 되었습니까? 그리고 기본적으로 데이터의 매개 변수는 무엇입니까? 많은 물건들 이 메타 데이터 속성 목록 데이터 관리에 대한 Data One 입문서에서 비롯된 것입니다 나는 위대하다고 생각한다 나는이 말의 끝에 참고로 그것을 줄 것이다

또한 10 월 21 일에 옥스포드에서 온 수잔나 산 쇼네가 가고있다 메타 데이터 및 메타 데이터 표준에 대한 토론을합니다 그리고 저는 이야기가 정말로 매우 도움이 될 것이라고 생각합니다 자, 내가 언급 한 것은 우리는 메타 데이터에서의 실험을 이해하고자합니다 우리는 데이터의 매개 변수를 이해하고자합니다

그것은 꽤 사소한 것처럼 보일 수 있습니다 그러나 실제로 많은 증거가 있습니다 우리가 그렇게하지 않을 때, 우리는 정말로 큰 문제에 빠지게됩니다 우리는 확실히 당신이 문제를 일으키는 좋은 예를 가지고 있습니다 관리 가능한 데이터의 감각

나는 최고의 일화 중 하나라고 생각한다 1998 년 화성 기후를 보냈을 때 일어난 일입니다 화성에 궤도 비행 그것은 훌륭한 일화입니다 실제로 불행한 일화 일뿐입니다

그것은 정말로 3 억 2 천 8 백만 달러의 재난 이었기 때문에 이 불행을 기억할지도 모르는 당신의 그것들으로서, 위성 제조 업체 그들의 일을 올바르게했고, 사양을 따랐다 미터법을 사용하여 모든 데이터를 관리했습니다 그러나 NASA가 화성 기후 탐사선에 데이터를 보냈을 때, 그 데이터는 영어 시스템에서 전송되었습니다 그리고 갑자기 데이터를 피트 파운드로 얻습니다

정말 위성을 던져 버렸습니다 그리고 화성 표면으로 추락했습니다 NASA가 인식하지 못했던 생각 단위 전환이 필요하다는 것은 명백하게, 오히려 당혹스럽고 아마도 제공 할 수 있습니다 왜 메타 데이터가 아닌지에 대한 가장 좋은 예 중 하나 우리가 한 실험을 설명 할 필요가있다 데이터 관련 정보를 제공합니다

우리가 그것이 무엇인지 이해하게한다 우리의 데이터가 실제로 어떻게 표현되는지, 그 다양한 단위들이 무엇인지 따라서 매개 변수에 대한 메타 데이터 각 매개 변수가 측정되거나 생산되는 방법, 단위가 측정하는 것, 사용 된 형식 데이터 세트에서 정밀도, 정확도, 데이터 값이 표현되는 불확실성, 사용 된 모든 코드의 정의, 어떤 종류의 품질 보증이 데이터에 대해 수행되었는지, 데이터 사용을 제한 할 수있는 알려진 문제점, 그리고 데이터 집합을 인용하는 방법 이것들은 물론 진짜 물건입니다 우리의 메타 데이터가 말하고 싶습니다

그리고 내가 분명히해야 할 한 가지는 우리가 종종하는 일입니다 사실, 우리는 보통 정보를 설명하는 메타 데이터가 없다 이 세부 수준 중 하나에서 그리고 물론, 데이터 과학 연구의 목표 중 하나 우리를 더 쉽고 더 좋게 만드는 것입니다 우리의 데이터가 기술되었는지 확인 적절한 세부 수준으로 그래서 우리가 유전자 발현 Omnibus에 가면, 이것은 우리가 모든 마이크로 어레이 데이터를 저장하는 곳입니다 예를 들어, 퍼브 스 카 트리 (Purvesh Khatri)가 액세스합니다 매우 명확한 것 중 하나는 GEO의 데이터에 대한 템플릿이 있다는 데이터베이스에 표현되어야합니다

NCBI가 만든 오래된 템플릿이 아닙니다 기본적으로, GEO의 유전자 발현 데이터는 지금은 최소 정보라고 불리는 거의 16 세입니다 마이크로 어레이 실험에 관한 표준, 또는 MIAMI 그리고 MIAMI는 기본적으로 작품을 대표합니다 함께 모이고 인식하는 조사관 공동체 그 사람들은 마이크로 어레이 데이터를 온라인으로 저장하고 있었다

그러나 그들은 다소 특별하게 그것을하고 있었다 온라인 데이터를 살펴 보는 것은 종종 불가능했습니다 데이터를 이해하는 방법을 이해하고 거기에 저장되었습니다 그리고 지역 사회는 말했습니다 일부 출판사 또는 일부 후원사를 기다리지 않고, 우리에게 이것을 강요합니다

우리는 함께 모여 일어나고 싶다 최소한의 정보 구성 요소 세트로 우리를 위해 순서대로 설명해야하는 다른 사람이 유전자를 가지고 무엇을했을지 이해하는 것 마이크로 어레이 그리고 그것은 기본적으로 이해를 의미합니다 원시 데이터가 무엇인지, 처리가 어떻게 수행되었는지, 샘플에 주석이 달린 방법 및 모든 종류 만들기 위해 중요한 기능들 이러한 종류의 데이터에 대한 감각 정말 흥미로운 점은 마이크로 어레이 공동체는 이런 종류의 표준을 만들었고, 그러나 많은 다른 그룹이 있습니다

biosharingorg에 간다면 Susanna Sansone이 10 월 21 일에 대해 이야기하십시오 온라인으로 MIAMI 설명을 찾을 수 있습니다 MIAMI가 어떻게 보이는지에 대한 좋은 참조를 얻는 방법 같이, 그리고 MIAMI 사용법을 아는 것 microinformation을 설명하기 위해 그러나 위생은 정보를 가지고 있습니다

수백 가지의 종류의 생물 의학 실험 그리고 biosharing에가는 것은 허용 할 것입니다 메타 데이터를 표현하는 방법에 대한 정보를 찾을 수 있습니다 지역 사회에 축복받은 다양한 접근 방식으로 그리고 저는 정말로 매우 흥미 롭습니다 생물 의학 공동체가 모이고있다 이러한 종류의 프레임 워크를 명확히 설명합니다

10 월에 이것에 대해 더 많이 알게 될 것입니다 수잔나가 얘기 할 때 그리고 제 자신의 일에 약간의 플러그를 줘서, 시더 프로젝트에서 말해야 겠어 필이 언급 한 것, 우리가 시더에서하고있는 것 계산 방법을 개발 중이다 이러한 종류의 표준화 된 메타 데이터 템플릿 이미 지역 사회에 의해 공포되고있다

그것들을 전산적인 형태로 투자자들이 쉽게 기입 할 수 있기를 바랍니다 이러한 체크리스트와 템플릿을 우리가 생각하는 견고하고 완전한 메타 데이터의 종류 정말 확실하게 중요하게 될 것입니다 공개 저장소에 저장된 정보 사람들이 자신이 원하는 것을 찾을 수 있도록 충분한 설명을 제공합니다 필요하고 그것을 사용하십시오 이제 이와 같은 메타 데이터 템플릿을 살펴 보겠습니다

Links 프로젝트의 셀과 같은 템플릿 시더 (Cedar)에 있습니다 빈칸이 가득 차 있습니다 그리고 한 명은 공란으로 공란을 채울 수있었습니다 어떤 종류의 텍스트라도 타이핑하면됩니다 하지만 제가 생각하기에, 메타 데이터를 만드는 데 정말로 중요합니다

데이터 과학위원회가 인정한 것 점점 더, 우리가 정말로하고 싶은 것입니다 조건으로 그 공란을 채우고있다 표준화 된 용어 또는 온톨로지로부터 나는 오늘 아침에 이야기 할 시간이 없다 온톨로지에 대해 자세히 설명합니다

10 월 7 일 Michel Dumontier 온톨로지에 대한 전체적인 이야기를 할 것입니다 이 슬라이드, 우리는 당신에게 작은 조각을 보여 줬어 국립 암 연구소 Thesaurus 매우 중요한 하나의 온톨로지입니다 암 생물학 그리고이 수백 가지의 온톨로지 생물 의학에서 이용 가능한 통제 된 조건을 제공하여 조사관이 다음 조건을 사용하여 공란을 채울 수 있습니다

정확하고, 의미에 동의 한, 기본적으로 그러한 의미로 인정 될 것입니다 사람들이 다양한 종류의 메타 데이터 기술을 처리 할 때 메타 데이터를 온라인에 액세스하기 위해 필요한 그래서 우리는 데이터 관리를 계획했습니다 우리는 우리의 데이터를 수집했습니다 우리는 품질 보증을 수행했습니다 템플릿과 온톨로지를 사용하여 데이터를 설명했습니다

이제 우리는 데이터를 보존해야합니다 우리는 우리 자신의 서버에 데이터를 넣어야합니다 말하자면, 우리 자신의 분석을 위해 이러한 데이터를 사용할 수 있어야합니다 궁극적으로 우리는 이러한 데이터를 보존 할 수 있기를 원합니다 미래를 위해 다른 사람들이 우리의 데이터에 접근 할 수 있도록 그러한 데이터를 이해하고 실험의 종류를 수행하십시오

Khatri는 않습니다 데이터를 디스크에 저장하는 것이 그렇게 어렵지는 않을 것입니다 양식에 데이터를 저장하는 방법을 알고 있다고 생각할 것입니다 사람들이 며칠 안에, 몇 달 안에, 또는 몇 년은 그렇게 어렵지 않습니다 하지만 실제로는 많은 계획이 필요합니다

많은 생각 그리고 아마 우리는 NASA 예제로 돌아갈 것입니다 때로는 NASA를 선택하는 것이 재미 있기 때문입니다 그러나, 확실히, 나는 우주 프로그램에 매료되었고, 1960 년대 NASA가했던 일에 너무 흥분했습니다 1970 년대, 더 유명한 이야기 ​​중 하나 그 시대에서 나온 사실 아폴로 프로그램에서 나온 많은 것들 다양한 데이터 형식으로 캡처되었지만, 수치 데이터 세트에서 비디오까지 다양합니다

아마 우리 모두 기억하는 비디오 일거야 Neil Armstrong이 처음 비디오를 본 순간입니다 달에 발을 들여 놓으십시오 우리 중 많은 사람들이이 동영상을 절대적으로 놀랐습니다 사람들이 달 표면에 서 있었다고 생각하는 것

흥미로운 점은 2006 년경에 갑자기 사람들의 사진을 볼 때 우주 비행사를 음력으로 관찰하는 미션 컨트롤 표면, 적어도 아폴로 11 임무에서, 비디오는 거의 낟알 같지 않았습니다 거의 나쁘지 않았습니다 그리고 실제로, 당신이 스틸 사진을 볼 때, 당신은 실시간으로 임무 통제를 봅니다 놀라운 사진을보고있었습니다 달에서 구할 수있는 비디오에서 가져온 것이다

우리가 TV로보고있는 사람들 이런 종류의 흐릿한 이미지를 보았습니다 그리고 호주에서 일어난 큰 계시가있었습니다 달의 원래 신호 아폴로 11 호 임무에서 수집되었습니다 그리고이 기사는 시드니 모닝 헤럴드에 출연했습니다 2006 년 10 월 7 일에 인류를위한 하나의 거대한 실책으로 제시되었지만, 왜냐하면 기본적으로 1969 년에 일어난 일 정말 고밀도 비디오 이미지가 달 표면에서 온 것이었다

자기 테이프에 저장된 특정 형식으로 그 특별한 포맷은 그렇지 않았기 때문에 나머지는 보았습니다 국제적으로 방송 될 수있는 것, 높은 품질을 보여주는 모니터였습니다 촬영 된 달에서 오는 이미지 표준 비디오 카메라로 신호가 방송 나머지 부분에 NTSC 형식으로 전송 세계 실제로 NTSC의 비디오입니다 우리가 보존 한 것

그리고 원래의 고화질 비디오 닐 암스트롱이 달에 발을 디디고있다 비디오 테이프에 저장되었습니다 당신이 1970 년대 언젠가 그것을들을 때까지 그것은 훌륭한 것처럼 들립니다 NASA는 비디오 테이프가 더 필요하다는 것을 깨달았습니다 원본 비디오 테이프 위에 고품질의 전송이 저장되었습니다

그리고 그것은 일종의 슬픈 이야기입니다 데이터 관리 계획을 수립하지 못한 경우, 이 동영상이 인류에 대한 지속적인 가치, 그리고 적절한 필요성 리드에 새로운 데이터를 복사하는 새로운 테이프를 가져야한다 대부분의 사람들이 보게 될 것이라고 생각하는 무언가의 손실 매우 중요합니다 그래서 우리 모두를 만드는 방법입니다 미디어가 중요하다는 것을 기억하십시오

오늘 우리가 데이터를 저장하기 위해 사용하는 미디어 우리가 10 년에서 15 년 사이에 사용하는 미디어가 아닐 수도 있습니다 나는 충분히 오래 머물렀던 우리 모두를 생각한다 우리가 1970 년대와 1980 년대에 어떤 종류의 데이터 스토리지를 가지고 있었는지, 그건 꽤 분명해 사람들이 뭐라고 부르는 지 문제도 있습니다 약간의 썩음 – 시간이 지남에 따라 때때로 디지털 방식으로 데이터를 저장하는 방식 정보의 손실로 이어집니다

우리는 사본이 필요하다는 것을 인식해야합니다 백업이 필요합니다 좋은 소식은 9 월 30 일 파스칼 가우 뎃입니다 데이터 큐 레이션에 대해 이야기 할 것입니다 그리고 그는 더 많이 이야기 할 것입니다

신체적 인 문제들 데이터를 저장하는 방법 및 일부를 피하는 방법 이 정말로 추악한 것들 따라서 라이프 사이클에는 계획, 수집, 품질 보증, 설명, 보존 그리고 궁극적으로 우리의 목표는 발견하는 것입니다 우리는 우리가 필요로하는 데이터를 찾을 수 있기를 원합니다 우리 자신의 실험뿐만 아니라, 우리가 이미 논의한 것처럼, 다른 수사관들에게는 우리의 데이터를 찾고, 새로운 종류의 것들을 발견한다

그 데이터로부터 그리고 좋은 소식은 많은 일입니다 생물 의학 공동체에서 일어나고있다 이 지역에 우리는 더 이상 카드 카탈로그의 시대에 머물러 있지 않습니다

우리는 DataMed 시스템과 같은 모든 종류의 기술을 보유하고 있습니다 bioCADDIE 커뮤니티에서 그리고 좋은 소식은이 세미나 시리즈에서 9 월 16 일입니다 빌 Hirsch 일반적인 문제에 대해 이야기합니다 정보 검색 그리고 9 월 23 일, UCSD의 Lucila Ohno-Machado, 나는 DataMed에 대해 말할 것이고, 도구가 나옵니다

우리가 데이터에 접근 할 수있게 해주는 bioCADDIE 일반적으로 다양한 저장소에서 필요한 데이터에 액세스 할 수 있도록 데이터를 검색 할 수 있습니다 그리고 생각하기에 데이터를 함께 넣으십시오 새로운 종류의 실험적 통찰력을 이끌어 낼 것입니다 따라서 데이터 수명주기가 계속해서 순환합니다 우리는 계획하고 싶다

우리는 수집하고 싶다 우리는 기술하고, 보존하고, 발견하고, 통합 그리고 솔직히 우리는 무대에 서 있습니다 우리는이 생명주기가 단지 순환한다는 것을 인식하고 있습니다 반복해서, 반복해서

데이터가 온라인에서 사용 가능 해지고 이 데이터를 실험 해 볼 수 있습니다 심지어 피펫을 집어 들지 않고, 우리는 생물 의학에 대한 새로운 것을 배울 수 있습니다 커뮤니티에 스며 들어있는 전문 용어가 생각납니다 다가올 협상에서 많은 이야기를들을 겁니다 데이터를 공정하게 만드는 개념 – 데이터 찾을 수 있어야하며, 접근 가능해야하며, 상호 운용 및 재사용이 가능합니다

이 용어는 워크샵에서 나왔습니다 2 년 전 네덜란드에서 열렸습니다 그리고 지금 그들은 Elixir에서 널리 채택되고 있습니다 유럽 ​​공동체, 미국 BD2K 공동체 그리고 공정한 데이터의이 개념은 생성 된 데이터를 찾을 수 있습니다

다른 조사자가 데이터를 형식으로 저장되기 때문에 액세스가 가능합니다 우리가 이해할 수있는 것, 우리가 파싱 할 수있는 것, 우리가 해석 할 수있는, 그들이 데이터를 데이터와 관련시킬 수 있기 때문에 상호 운용 가능 온라인에서 사용할 수 있고 이해할 수있는 다양한 데이터 세트의 또한 이러한 데이터를 사용하여 새로운 통찰력을 창출하고, Khatri가했던 것처럼, 패혈증에 대한 게놈 서명, 또는 게놈 서명 또는 활동성 결핵 이들은 실험의 종류와 종류입니다 데이터에서 오는 통찰력의 우리는 온라인에 있고, 솔직히 증가 할 것입니다 생물 의학 기업의 효율성 규모의 순서에 따라, 우리는 초기 실험에서 얻은 통찰력을 얻으십시오

하지만 우리는 수 많은 수사관을 확보 할 수있게 될 것입니다 기존 데이터 세트를 볼 것입니다 그저 불가능한 통찰력을 얻었습니다 데이터가 원래 수집되었을 때, 원래의 수사관들은 결코 생각하지 않았기 때문에 그것의, 또는 회고에서 우리는 더 많은 것을 이해하기 때문에 우리가 이전에 이해했을지도 모르는 것보다 세계에 대해, 새로운 종류의 분석에 대해 생각하게합니다 우리는 새로운 종류의 조사를 수행 할 수 있습니다

그래서 지금, 40, 50 년 후, NASA는 정말 알아 내기가 힘듭니다 많은 데이터 세트를 복구하려고 시도 할 수있는 방법 1960 년대에 만들어졌고 더 이상 읽을 수없는 미디어에 그 (것)들을 읽는 기계의 종류가 더 이상 존재하지 않기 때문에, 왜냐하면 지금 우리가 배운 모든 것을 이해하기 때문입니다 지난 40 년 동안 우리는 그 데이터로 돌아가고 싶습니다 그들을 재 해석한다 그리고 그것은 바로 생물 의학에서 일어날 것입니다 이전 데이터 세트로 이동하려고 할 때 리포지토리에서 사용할 수 있습니다

우리가 생물 의학 기업 전체에서 관리하는 새로운 데이터를 해석하기 시작하면, 우리가 중간에 배울 모든 것들의 관점에서 그것은 매우 흥미로운 부분입니다 이것이 공정한 데이터를 보유한 이유 중 하나입니다 우리에게 너무 중요합니다 원한다면 어두운면이 있습니다

공정한 데이터가 중요합니다 그리고 그것은 증가하는 불신입니다 사람들이 과학에 가지고있는 것 사람들은 유명한 이코노미스트 프론트 페이지를 기억할 것입니다 2 ~ 3 년 전에 발생한 기사

과학자들이 가진 문제 재현 할 수 있음 – 그게 질문 이었습니까? 좋아, Amgen이 어떻게 재현하기가 정말로 힘들었는지 암 생물학에서의 63 건의 획기적인 논문에서의 발견, 그들 중 약 6 명만 그렇게한다고 주장합니다 바이엘이 67 가지 전임상 연구를 재현하여 그들은 결과의 검증에 성공했다 25 %만이 많은 사람들이 궁극적으로 이러한 랜드 마크 연구의 재생산하기가 어렵다 조사의 전체 분야를 창출하고, 아무도 초기 결과를 확인하는 것을 괴롭히지 않고, 그러나 그들을 당연한 것으로 여기고, 노력하고있다 기본적으로 그리고 혐의로 새로운 실험을 할 것입니다

그 재현 불가능한 결과를 바탕으로하십시오 그리고 솔직히, 우리 중 많은 사람들이 알고 있듯이, 그것은 재현 할 수없는 연구이다 저널에 더 많이 게재 될 가능성이있다 가장 큰 충격 요인을 가지고 있습니다 종종 이러한 재현 불가능한 연구, 솔직히 말해서 가장 흥미로운 결과를 얻었습니다

어떤 경우에는 종종 어려울지라도 재생산 그리고 물론 이것은 문제입니다 손을 짜내고있어 많은 사람들이 그것에 대해 이야기합니다 그것은 많은 원인이 있습니다

그리고 그들 중 일부는 꽤 사소한 것입니다 – 때로는 연구에서 통계력이 충분하지 않을 수도 있습니다 때로는 실험을 수행하는 데있어 예술 형식이 있습니다 그리고 메타 데이터 자체는 모든 정보를 포착하십시오 더 일찍 또는 솔직히 게시하기를 열망하는 경우가 종종 있습니다 조숙하게

드물게 사기가 있습니다 그러나 정말로, 저는 많은 사람들이 생각합니다 우리는 전통적으로 쉽지도 보람도 없었습니다 조사관이 결과를 복제 할 수 있도록 다른 연구자의 우리는 지금 인식하고있는 문화를 가지고 있습니다 데이터 보존의 중요성, 설명, 및 재 탐사

그러나 데이터 수명주기에 더 많은 관심을 기울일 때, 우리가 어떻게 다른 사람들의 데이터를 사용할 수 있을지에 대해 생각할 때, 다른 사람들의 데이터로부터 우리가 어떻게 배울 수 있는지, 다른 사람들의 재확인이 중요한 이유 데이터, 전 세계가 바뀔 것이라고 솔직하게 믿습니다 그리고 최소한 과학이 움직이는 것을 보게 될 것입니다 우리가 더욱 개방적이고 온라인 접속이 가능한 상황 실험 데이터 세트로 온라인 데이터 세트의 주석에 중점 적절한 메타 데이터를 사용하면 데이터에 대한 최소한의 정보를 얻으려고 노력하십시오 사용 가능한 온라인 하지만 궁극적으로 우리는 너무 많은 양질의 메타 데이터를 온라인으로보기 온라인 데이터가 저널만큼이나 유용 할 수도 있습니다

과학자들이 한 일을 이해하는 데 필요한 출판물, 그리고 그들의 일에 대해 이해하는 법 온톨로지 사용에 대한 강조가 증가하고 있습니다 재생산 가능한 방식으로 메타 데이터에 주석을 달 수 있습니다 그리고 궁극적으로 DataMed와 같은 시스템 실험 결과를 더 잘 검색 할 수있게 해줍니다 우리는 우리가 필요로하는 데이터를 찾을 수있을 것입니다

그들을 더 잘 분석하십시오 근본적으로, 우리가 향해 나아가고있는 것 훨씬 더 많은 것이있는 세상입니다 데이터 청지기에 대한 관심 그리고 우리는 라이프 사이클이 실제로 우리는 우리의주의를 집중해야합니다 그래서 궁극적으로 우리는 혁명을 생각하고 있습니다

우리는 과학에 관해 이야기하고 데이터에 관해 이야기합니다 우리는 세계를 생각할 것입니다 언제나 어디서나 데이터가 이동합니다 우리에게 증가하는 양, 속도, 및 다양성 결과적으로, 우리가하는 실험의 종류, 우리가 데이터를 관리하는 방식, 많은 새로운 계산을 요구할 것입니다

접근 방식 – 사람들이 작업하고있는 새로운 접근 방식 지금 당장이 세미나 시리즈에 대해 배우게 될 것입니다 우리는 데이터가 검증되어야하기 때문에, 조사관을 재 해석하고 재검토하면 더 이상 데이터를 부작용으로 생각하지 않습니다 또는 최종 제품, 그들이 올 수 있도록 연구 결과와 함께 과학 논문을 쓰는 것이 아니라 오히려 치료하는 것입니다 작업의 실제 목적을 나타내는 데이터, 데이터를 그 끝점으로 과학 논문에 의해 보완된다 그러나 그것은 또한 제공 할 것입니다 미래의 실험을위한 기초 조사관들의 전체 간부에 의해 아직 태어났습니다

그리고 데이터가 공평하고, 찾기 쉽고, 접근 가능하고, 상호 운용 가능하며, 재사용 가능해야합니다 수사관은 계획을 세울 필요가 있습니다 훨씬 더 포괄적 인 방법으로 데이터 관리 심지어 실험을 시작하기 전에, 조건 변화에 따른 실험 도중, 그들의 실험 후에도, 그들은 더 나은 방법이있을 수 있음을 인정하면서 데이터를 공개적으로 사용할 수 있도록 다른 수사관들이 활용할 수 있음 생산되는 데이터의 종류 생물 의학 기업에서 그래서 내가 언급 한 라이프 사이클이 있습니다 그리고 라이프 사이클을 생각하면, 이것은 좋은 프레임 워크를 제공 할뿐만 아니라 데이터를 수집하는 방법을 생각할 때, 관리되고 사용되며 발견 된 새로운 실험의 기초를 형성하는 데 사용되었습니다 그러나 기본적으로, 내가 생각하는 것은 모든 데이터 과학의 주요 요점 이 강좌 시리즈에서 듣게 될 내용입니다

그래서 내가 너와 함께 할 수있는 가장 중요한 일은 다가오는 것이 정말 환상적인 회담이 될 것인가? 정말 위대한 사람들입니다 그리고 오늘 제가 말한 바를 매주 조정할 수있는 영감을 줄 것입니다 최첨단 데이터에 어떤 일이 일어나는지 들어보십시오 과학 및 생체 의학 그리고 몇 가지 참고 문헌을 남겨주세요

내가 생각하기에, 내가 생각하기에 오늘 아침에 내가 이야기 한 것들 중 잘하면 귀중한 것을 찾을 수 있습니다 네가 어떻게 지내는지 생각할 때 데이터 관리 계획을 활용하려면, 데이터 수명주기에 대해 생각하고, 그것을 당신 자신의 일에 사용하도록하십시오 내가 거기서 멈추게 해줘 그리고 우리가 몇 가지 질문을 할 시간이 있는지보십시오 Michelle Dunn : 감사합니다, Mark

이것은 훌륭합니다 당신은 우리가 무엇을 보게 될지에 대한 훌륭한 개요를주었습니다 그리고 나는, 나는 이것을 정말로 고대하고있다 나는 어떤 질문이있는 경우에, 우리는 채팅으로 그들을 가질 필요가있다 로그온 한 모든 사람이 자동 모드이기 때문입니다

질문이 있으시면 알려주세요 컨트롤의 오른쪽에있는 채팅 상자에 씁니다 패널 또는 제어판에서 장소에 상관없이 사용할 수 있습니다 그리고 Musen 박사는 몇 가지 질문을 할 시간이 있습니다 질문 상자 아래에 일찍 올 사람이있었습니다

또한 공정한 데이터 및 상호 운용성에 관한 것입니다 레거시 데이터에 대한 문제점을 고려할 때 상호 운용성 – 예를 들어, 전자 건강 기록 제한, 데이터 교환 등 이 강연이나 장래의 강연은, 또는 당신이 화해하는 방법을 토론 할 수 있습니까? 열린 공정한 데이터에 대한 필요성과 기본 상호 운용성 도전? 마크, 아직 거기 있니? Mark Musen : 나는 음소거 되었습니까? Michelle Dunn : 조금은 음소거 된 것 같아요 Mark Musen : 내가 돌아 왔니? Michelle Dunn : 이제 다시 돌아 왔습니다 Mark Mark Musen : 좋아, 나는 개인적으로 받아들이지 않을 것이다

그것은 큰 질문이었습니다 그리고 그것은 몇 분 안에 내가 대답 할 수있는 것 이상의 것입니다 그러나 당신이 지적하는 문제가 있다고 생각합니다 왜냐하면 우리가 실험을하는 방식이 시간이 지남에 따라 변하기 때문입니다 때로는 마이크로 데이터가 다시 검사되는 것에 대해 이야기합니다

분명히 사람들이 쓰는 칩 종류는 시간이 지남에 따라 변경 사항을 사용하고 돌아가서 이해할 수 있어야합니다 몇 가지 가장 오래된 기술 중 일부 항상 도전하고 있습니다 도전 과제가 많이 발생하는 이유는 세상의 변화에 ​​대해 생각해보십시오 그래서 나는 온톨로지를 중요한 방법이라고 언급했다 이기종 데이터 세트 간의 상호 운용성을 허용합니다

그러나 우리의 온톨로지는 시간이 지남에 따라 변화합니다 예를 들어 우리는 유전자 온톨로지의 오래된 버전으로 분석되었다 데이터와 다른 결과를 줄 것입니다 유전자 온톨로지의 새로운 버전으로 분석된다 그래서 저는 우리가 말하기를 원하지 않습니다 시간이 지남에 변화를 다루는 만병 통치약을 가져라

이 실험 데이터 세트에서 그러나 우리는 정말로 흥미 진진한 연구를위한 진정한 기회를 가지고 있습니다 시간이 지남에 따라 변화하는 온톨로지를 조정하는 방법 데이터에 충분한 주석이 있음을 보장하기 위해 모든 가정이 무엇인지 되돌아 가서 재구성 할 수 있습니다 데이터를 통합하려고 할 때 관련성이있을 수 있습니다 서로 다른 시점에 만들어졌다

다른 상황에서, 그리고 그렇지 않다는 것을 인정하면서 데이터 세트를 혼합하고 매치하는 것만으로도 충분합니다 그러나 실제로 존재하는 과학이 있습니다 데이터의 가정이 무엇인지 무수히 나타낼 수 있습니다 그 가정들을 데이터로 조화시킬 수 있어야한다 통합 되십시오

Michelle Dunn : 고마워 몇 가지 다른 질문이 있습니다 질문 상자 아래 내가 맨 밑에서 본 하나 당신은이 데이터 수명이 주기는 모든 종류의 데이터에 적용되며, 생물 의학 데이터 이외? Mark Musen : 예, 저는 여러분에게 지금은 DataOne 커뮤니티의 화면입니다 지구의 과학과 관련이있다

그리고 나는 그들이 다른 종류의 공동체를 대표한다고 생각합니다 그러나 정확히 같은 종류의 데이터 요구 사항을 가지고 있습니다 정확히 동일한 문제를 인식합니다 나는 우리가 이야기하고있는 이슈들이 모든 과학과 관련이 있다고 생각합니다 그리고 그들은 또한 데이터와 관련이 있다고 생각합니다

반드시 만들어지는 것은 아니며 통제 된 실험 나는 그들이 관측 연구와 관련이 있다고 생각한다 그들은 중재 적 연구만큼 많이합니다 신호 데이터와 관련이 있다고 생각합니다 기회주의 적으로 얻는다

그리고 저는 어느 정도 생각합니다 우리가 EHR에서 얻는 데이터의 종류와 관련이 있습니다 그래서 나는 어떤면에서이 모든 이슈들이 적절하다고 생각합니다 그리고 저는 우리가 데이터의 끈기를 보게 될 것이라고 생각합니다 이러한 모든 형태와 그 데이터의 재검토 미래의 모든 다양한 출처에서

Michelle Dunn : 좋아요 질문이 한 번 더있을 것으로 생각합니다 데이터 공유에 대한 정보가 있습니다 그리고 그것은 많은 진전이 있었다고 말합니다 분자 데이터 공유

그러나 임상 데이터에 대한 도전, 특히 개인 정보 보호 동의 및 기타 문제와 관련된 문제, 조사관들은 데이터 공유를 주저하고있다 당신은 이러한 도전에 대처하는 방향을 예견 할 수 있습니까? Mark Musen : 데이터 공유에서 가장 큰 도전 중 하나는 생각합니다 WIIFM 문제입니다 그건 라디오 방송국이 아니야 그것은 무엇입니까? 그리고 수사관들은 그것을 이해할 필요가 있다고 생각합니다

자신의 데이터를 공개함으로써 더 많은 것을 배울뿐만 아니라 다른 사람들이 통찰력을 가질 수 있기 때문에 그들은 다시 기여할 수 있습니다 그러나 나는 그것이 과학적 기업의 일부라고 생각한다 그리고 나는 변화하고있는 것들 중 하나라고 생각합니다 과학은 출판으로 멈추지 않는다는 인식이다 산문의 낱단의, 그러나 다른 사람의 기회에 커뮤니티 전체가 데이터 세트를 볼 수 있습니다

즉, 사람들은 이타적인 행동을 취할뿐 아니라 희망을 품을 수 있습니다 그러나 분명히 자금 조달 자들은 생각하고있다 그들이 데이터를 확보 할 수 있도록 사용할 수있게했다 그리고 기본적인 감정은 그 데이터입니다 공공 투자의 결과로 수집된다

연구는 일반인에게 속한다 그러므로 이용 가능하게 할 필요가있다 분명히 EHR의 경우에는 달라질 것입니다 데이터는 다른 값을가집니다 그러나 동시에, 나는 환자들 누가 학습 건강 시스템을 모델로 인정하는지 의료를 더 잘하게 될 것입니다

앞으로 더욱 정확해질 것이며, 또한 그들이 데이터를 사용 가능하게 만들고 싶습니다 공급자가 그렇지 않더라도 데이터가 미래의 환자를 돌보는 것이 더욱 세련 될 수 있도록하십시오 그래서 나는 이것의 많은 부분이 달려 있다고 생각합니다 문화적 변화 및 조사자들 사이의 인정 데이터 공유가 중요하고 또한 임상 데이터의 경우 인식 인류를 도울 수있는 환자의 일부분 그들의 데이터를 이용 가능하게함으로써 Michelle Dunn : 정말 고마워요, Mark 잭이 마지막 몇 마디를 말하고 싶다면, 나는 그들이 할 수 있다고 확신하지 않는다 – 나는 그들의 오디오가 잘린다고 생각한다

그러나 그들이 뛰어 오르지 않는 한, 나는 우리가 우리 연사에게 감사드립니다 모두가 당신에게 조용한 박수를 보냈다고 생각해 지금, 마크 그러나 그 다음에 합류 한 모든 사람들에게도 감사드립니다 오늘 아침에 천천히 시작해서 미안해

우리는 다시 새로운 URL을 발송할 것입니다 그리고 저는 특히 교육 법인 센터에 감사드립니다 마지막 순간에 전환하기 위해 우리 모두를 수용 할 수있는 서비스로 정말 고마워요 그리고 앞으로 다가올 몇 주가 지나면 모두들 동조하게 되길 바랍니다 우리보다 앞서 훌륭한 프로그램이 있기 때문입니다

안녕히 계세요