Big Data, Big Profits! Use AI for Serious Gains with Gains Systems

David Moadel과 함께 시장을 살펴보십시오 : 큰 데이터, 큰 이익! 게인 시스템과 함께 심각한 이득을 위해 AI 사용 안녕하세요 David Modell과 함께 시장을 보는 것에 오신 것을 환영합니다

당신은 당신의 거래와 투자를 통해 지금 당신이 3 % 주말에는 하루에 105 %를 벌고 있습니까? 너는 그렇게 많이하지 않는다 너는 정말로해야하기 때문에 너는 있어야한다 이득 시스템을 확인하십시오 입력 할 수있는 Gaines 도트 시스템에 있습니다

지금 당장 브라우저에 Gaines dot 시스템을 설치하거나 다음 링크를 방문하십시오 이 비디오 아래의 설명과 거기에 당신을 데려 갈거야 이것은 게인 시스템입니다 인공 지능을 기반으로 한 거대한 데이터 큰 이익 지능을 기계 학습 또는 큰 데이터라고도합니다 Gaines 시스템은 시장에서 패턴을 감지하여 적용합니다 고주파 거래의 패턴은 기계가 인간을 이길 거라는 것을 알고 있었습니까? 기계는 실제로 상인 및 투자자로 사람들을 능가합니다 기계가 그렇지 않기 때문에 사람들보다 훨씬 잘하는 경향이 있습니다

감정적 인 반면 사람들은 항상 나쁜 결정을 내립니다 사람들이 두려움과 탐욕으로 가득 차있다 수학 기계는 데이터와 정보를 훨씬 더 빠르게 수집 할 수 있습니다 사람들이 할 수있는 것보다 더 잘할 수 있고, 수집 할 수있는 데이터를 종합 할 수 있습니다 그것을 해석하고 그들은 내가 할 수없는 정말로 큰 일관된 이득을 만들 수있다

시장에서 보장하지만 내가 지금 당신에게 말할 수있는 것은 그 이득입니다 시스템은 당신이 그것을보고 싶은 곳을 찾고 싶습니다 당신이 그걸 만들 준비가되었을 때 빅 데이터와 인공 지능의 힘을 사용할 준비가되었을 때의 이득 지능은 이득 도트 시스템으로 이동 한 다음 가입하기 만하면됩니다 바로 홈페이지에서 가입 버튼을 누르십시오 이것은 1 분 동안 매우 빠른 작업을합니다 이득 시스템은 사람이 연구 할 정보를 분석합니다

좋은 년을 잡아야하고 그들은 이득 점 시스템에서 1 분 만에 그것을한다 수학을 사용하는 이익에 대한 긍정적 인 수학적 기대 사람들이 보통 수학적으로하는 것처럼 감정을 사용하지 않는 데이터 사용 기대와 수익 요인은 상인을 위해 안정적인 이익을 보장합니다 투자자와 인간 요소 AI 인공 지능의 부재 두려움이 없다 탐욕스러운 외적인 정서적 요인이 없다 어려운 계산 및 작동 방법은 작동 방식과 균등 한 방식으로 이루어집니다

이익을 얻는 시스템으로 더 많은 돈을 벌 수있는 현상금 프로그램이 있습니다 어떻게하면 좋을까요? 1 만 달러의 현금 경품 행사 참여로 전 세계에 이익에 대해 알리고 실제로 돈을받습니다하지만 어떻게해야합니까? 그 가입 단추를 명중해서 웹 사이트는 어떤을 위해에서 예금을 두어야한다 계정과 당신은 공짜를받을 자격이있어 좀 더 말해 줄게 이 놀라운 기회에 대해 평균적으로 의사 결정을 내릴 수 있다고 상상해보십시오 035 8 초 나는 인간이 좋은 똑똑한 투자와 거래를하는 것을 보지 못한다

결정은 빠르지 만 이익 시스템은 AI 시스템보다 앞서 있습니다 경쟁자는 인간만큼 멀리 가기 때문에 최대 값을 추출합니다 빅 데이터가 할 수있는 일은 꽤 놀랍습니다 부글러 베어는 오래 갈 예정 이시라면 중요하지 않습니다 AI 시스템은 모든 시장에서 효율적으로 작동합니다

곰 같은가 또는 동향이 옆쪽에 있는지 여부 신경망 계산 사람들이 할 수있는 것보다 훨씬 좋은 분당 수백 패턴 내가 당신에게 말할 것입니다 무엇이 시장에서 가장 수익성있는 진입 점인지를 환상적으로 발견합니다 그래서 게임의 파트너 프로그램도 참여할 수 있습니다 그걸로 더 많은 돈을 벌어 들인다 2,000 달러의 보너스와 당신이 서명해야하는 리더십 프로그램을 얻습니다

그것에 대해 더 많이 알기 위해 그리고 당신은 명확히하고 싶어한다 가입하십시오 그들은 Gaines 최대 이익을 얻는 확실한 시장 선두 주자입니다 이익을 얻은 투자는 일일 순이익 3 %를 다시 벌 수 있습니다 아무것도 보장하지 말고 여기 웹 사이트에 따르면 게인 시스템으로 가능합니다 체크 아웃을 권장합니다

소득 1 회 투자 한 해 동안 일일 소득 매일 365 일 이내에 지갑에 갈 수 있었습니까? 매일 매일 어떻게 지내고 싶습니까? Google이 고유 한 제휴 프로그램을 통해 얻을 수있는 이익 5 단계의 보너스 시스템, 5 단계의 보너스를 좋아합니다 너는 가입을해야만한다 이득 시스템은 문자 그대로 기가 바이트의 데이터를 매일 처리합니다 어떤 시장 상황에 대한 패턴에 대해 연구한다 모든 시장 조건에서 작동하므로 인적 요소가 없습니다

단지 패턴 일뿐입니다 역사적인 데이터 뉴스는 정보를 사용하는 수학을 사용하고 있으며 인간이 할 수있는 것보다 천 배나 더 효과적입니다 당신과 일하는 기계는 당신의 전화기에서 그 플랫폼이 어떻게 생겼는지를 나타냅니다 전 세계 어디에서든 투자를 통제 할 수 있습니다 전화 또는 노트북 컴퓨터의 데스크탑 컴퓨터를 편리하게 사용할 수 있습니다

편리한 개인 사무실 투자를 관리 할 수있는 투자자 계정 통계 및 계정 보안을 추적하십시오 팀의 새로운 파트너가 보너스 통보를받습니다 제어판 오른쪽에있는 전화 바탕 화면의 노트북 태블릿을 사용할 수 있습니다 서명해야 할 계정을 만들어 오늘 수입을 올릴 수 있습니다 그 버튼으로 게임 플랫폼에 등록 절차를 매우 빠르고 매우 간단합니다

2 분 이상 걸리지 않아야합니다 당신의 시간은 그 단추를 누르십시오 지금 계정을 창조하십시오 Bitcoin를 사용하여 투자 할 수 있습니다 또는 litecoin 또는 aetherium Tron 또는 여기에 선택의 여지가 많이 파문 괜찮 으면 투자하고 Bitcoin을 가지고 있지 않으면 litecoin 또는이 중 하나를 예를 들어 코인 기반 계정을 가지고 있다면 매우 간단합니다 Bitcoin litecoin aetherium 등을 위해 달러를 교환 할 수 있습니다 다음에 게인 시스템을 사용할 수 있습니다 시작 방법 브라우저 유형 이 비디오 아래의 설명에서 점 시스템을 사용하거나 링크를 클릭하십시오

그것을 클릭하면 즉시 게임 도트 시스템으로 데려 갈 것이고, 나는 감사하고 싶다 이 비디오를 확인해 주셔서 대단한 기회라고 생각합니다 감정을 거래에서 제외하고 수학과 데이터를 훨씬 더 많이 사용할 수 있도록 그것은 인간이 수집 할 수있는 것보다 빠르고 더 일관되게 당신이되기를 원합니다 유익한 당신은 대부분의 사람들이 얻을 수없는 종류의 이익을 만들고 싶습니다 예 : 영업일 기준 1 일 3 % 하루에 1

5 % 주말에는 보장 할 수 없지만 점을 사용하면 가능할 수 있습니다 시스템 체크 아웃 나는 지금 당신이 그것을 할 초대합니다 내 이름은 데이비드 모델 이것은 내가 당신에게이 놀라운 것을 가져다 줄 계속 유지할 시장을보고 있습니다 플랫폼 및 시장에서의 이러한 놀라운 기회에 감사드립니다 너무 많이보고 듣기 위해 곧 다시 너에게 말할거야

Data Science Full Course for Beginner | Data Science Tutorial

데이터 과학에 오신 것을 환영합니다 나는 바튼 폴슨이고 우리가하려고하는 것은 무엇인가? 이 과정에서해야 할 일 우리는 간단하고 접근 가능하며 기술적이지 않은 개요를 가질 것입니다

데이터 과학 분야 이제 사람들은 데이터 과학을들을 때 생각을 시작합니다 같은 것들 : 데이터 및 방정식과 숫자의 더미에 대해 생각하고 상단에 던져 연구실에서 근무하는 사람들에 대해 생각해보십시오 나를 위해서가 아니야 나는 기술적 인 사람이 아니며 단지 너무 기술적 인 것처럼 보입니다

잘, 여기 중요한 사실을 알고 있습니다 많은 사람들이 실제로 해고당하는 동안 데이터 과학의 기술적 측면은 중요한 것은 데이터 과학은 기술 분야는 많지만 창조적입니다 그리고, 사실 그건 사실입니다 내가 말하는 이유 그 이유는 데이터 과학에서 코딩과 통계에서 나온 도구를 사용하기 때문입니다 수학 그러나 그것들을 사용하여 창조적으로 데이터로 작업하십시오

아이디어에는 항상 더 많은 것이 있습니다 한 가지 방법으로 문제를 해결하거나 질문에 답하는 것보다 가장 중요한 것은 통찰력을 얻는 것입니다 목표를 달성하는 방법에 관계없이 목표는 데이터에서 통찰력을 얻는 것입니다 과 다른 많은 것들과 비교할 때 데이터 과학을 독창적으로 만드는 것은 당신이 듣고 자하는 것입니다 표준 접근 방식에 쉽게 맞지 않는 경우에도 모든 데이터에 적용됩니다 분석 및 이유에 훨씬 포괄적 이도록 노력하는 패러다임 당신이하고 싶다는 것은 모든 것이 의미하기 때문입니다

모든 것이 의미를 전달하고 모든 것이 주변에서 일어나는 일에 대해 더 많은 이해와 통찰력을 줄 수 있습니다 그래서이 과정에서 우리가하려고하는 것은 당신에게 데이터 분야에 대한지도를 제공하는 것입니다 과학과 당신이 그것을 사용할 수있는 방법 그래서 지금 당신은 당신의 손에지도를 가지고있다 그리고 당신은 할 수있다

데이터 사이언스로 갈 준비를하십시오 데이터 과학 : 소개로 돌아온 것을 환영합니다 그리고 우리는 데이터 과학을 정의함으로써이 과정을 시작할 것입니다 그건 의미가 있습니다 그러나 우리는 재미있는 방식으로 일을하려고합니다

내가 얘기 할 첫 번째 것은 데이터 과학에 대한 수요 자, 잠깐 살펴 보겠습니다 이제 데이터 과학을 정의 할 수 있습니다 몇 가지 방법으로 짧은 정의를 드리겠습니다 내 정의에 하나 가져 가라

데이터 과학은 적용된 설정의 코딩, 수학 및 통계입니다 그건 합리적인 작업 정의 하지만 좀 더 간결 해지고 싶다면 정의에 대해 두 가지를 취하십시오 그 데이터 과학은 다양한 데이터 또는 데이터를 분석하는 것입니다 당신은 표준적인 분석 접근법에 맞지 않을 것이라고 생각했습니다

그것에 대해 생각할 수있는 세 번째 방법 데이터 과학은 포괄적 인 분석이라는 것입니다 여기에는 모든 데이터, 모든 정보 연구 질문에 대한 가장 통찰력 있고 설득력있는 답변을 얻으려는 것입니다 자, 당신은 스스로에게 "기다려 그게 다야?"라고 말할 수 있습니다 글쎄, 당신이 감명을받지 못했다면, 내가 너에게 몇 가지 것을 보여 준다 첫째로,이 기사를 보자 그것은 말합니다, "데이터 과학자 : 21 세기의 가장 섹시한 직업 "이라고 말했습니다 그리고 이것은 하버드 비즈니스 리뷰

그래서, 이것은 권위있는 소식통이며, 이것의 공식 소스입니다 데이터 과학은 섹시합니다 자, 다시 말하면, 너 자신에게 "섹시한? 나는 그렇게 생각하지 않습니다 "오, 예, 섹시합니다 데이터 과학이 섹시한 이유는 첫째, 희귀 한 특성을 가지고 있으며 두 번째로 높은 수요가 있습니다 조금 더 말해 보자

그것들에 대해서 드문 자질은 데이터 과학이 비정형 데이터를 취한 다음 순서, 의미 및 값을 결정합니다 그것들은 중요하지만, 오는 것은 쉽지 않습니다 건너서 둘째, 높은 수요

음, 수요가 많은 이유는 데이터 과학 주변 상황에 대해 통찰력을 제공하며 비판적으로 경쟁력을 제공합니다 이점, 비즈니스 환경에서 큰 일입니다 자, 내가 돌아가서 조금만 더하자 수요에 대한 자세한 정보 몇 가지 다른 출처에 대해 살펴 보겠습니다

그래서, 예를 들어 맥킨지 글로벌 인스티튜트 (Global Institute)는 매우 유명한 논문을 출간했으며이 URL을 통해 얻을 수 있습니다 과 그 웹 페이지로 가면, 이것이 올 것입니다 그리고 우리는 이것에 대한 간략한 설명, 총괄 요약 다운로드 할 수있는 PDF 파일입니다 만약 너라면 이것을 열면이 페이지를 찾을 수 있습니다

그리고 오른쪽 하단 모서리를 살펴 보겠습니다 여기에 두 개의 숫자가 있습니다 나는 그것들을 확대 할 것입니다 첫 번째는 그들이 예상하고있는 것입니다 향후 몇 년 동안 140 ~ 190,000 명의 분석 분석 인재가 필요합니다

위치 따라서 이것은 실제 데이터 과학자를 훈련시키는 것을 의미합니다 그것은 엄청난 숫자입니다 그러나 거의 10 배는 데이터에 정통한 150 만 명 이상의 관리자가 필요합니다 미국의 빅 데이터 활용 이제, 반드시 그렇지 않은 사람들입니다

분석을하고 있지만 이해해야하며 누가 데이터를 말해야하는지 그리고 그것은 하나입니다 이 특정 코스의 주요 목적 중 하나는 데이터 연습 과학자들은 데이터에서 얻을 수있는 것을 이해하는 법을 배웁니다 거기에 도착하는 데 사용되는 방법 LinkedIn의 다른 기사를 살펴 보겠습니다

이리 바로 가기 URL이며이 웹 페이지로 연결됩니다 : "가장 인기있는 25 가지 직업 2014 년에 고용 된 사람들이있는 기술 "그리고 여기에서 1 위를보세요 : 통계 분석 및 데이터 마이닝, 데이터 과학과 매우 밀접한 관련이 있습니다 그리고 분명히하기 위해, 이것은 호주, 브라질, 캐나다, 프랑스, ​​인도, 네덜란드에서는 1 위 였고, 남아프리카 공화국, 아랍 에미리트 연합 및 영국 어디에나 그리고 만약 글래스 도어 (Glassdoor)를 보자

2016 년, 그리고 그것은 "미국 최고의 직업 25"에 관한 것입니다 그리고 1 번을보십시오 바로 여기, 데이터 과학자입니다 그리고 우리는이 정보를 확대 할 수 있습니다 거기 있다고한다 1,700여 개 고용되며 중간급 기본급이 116,000 달러 이상이며 멋진 경력 기회 및 직업 점수

그래서,이 모든 것을 하나로 모으고 싶다면, 결론은 데이터 과학이 지불한다는 것입니다 좀 더 보여줄 수 있어요 그 그래서 예를 들어, 여기에 내가 얻은 상위 10 대 급여의 목록이 있습니다 미국 뉴스

우리에게는 의사 (또는 의사), 치과 의사 및 변호사 등이 있습니다 자, 만약 우리는 O'Reillycom의 데이터를 사용하여 데이터 과학자를이 목록에 추가합니다 약 그리고 평균 총 급여로 3 위를 차지했습니다 (우리가 다른 하나,하지만 총 보상) 약 1 년 4 만 4 천 달러

그건 특별합니다 그래서 요컨대, 우리는이 모든 것에서 무엇을 얻습니까? 우선, 우리는 매우 높은 수요가 있다는 것을 알게됩니다 데이터 과학 두 번째로, 우리는 두 전문가 모두에게 비판적인 필요성이 있음을 알게됩니다 그 일종의 실습 데이터 과학자입니다

일반인을 위해 말하는 사람들 언어와 할 수있는 일을 알고 있습니다 그리고 물론, 탁월한 임금 그리고 모두 함께, 이것은 데이터 과학을 매력적인 직업 대안으로 만들고 당신을 더 잘 만드는 방법입니다 당신이하는 일에 여기 데이터 과학에서 우리는 우리의 시도를 계속할 것입니다 현장에서 실제로 잘 알려진 것을보고 데이터 과학을 정의합니다

그만큼 데이터 과학 벤 다이어그램 이제 원할 경우, 당신은 "무엇을 데이터 과학의 재료입니까? "글쎄, 우리는 먼저 Drew Conway에게 감사의 말을 할 것입니다 이걸 생각해 낸 사람 말이야 원본 기사를보고 싶다면 다음을 수행 할 수 있습니다 이 주소로 가십시오

그러나 Drew가 말한 것은 데이터 과학이 세 가지로 구성된다는 것입니다 중요한 교차점이므로 겹치는 원으로 만들 수 있습니다 여기 왼쪽 상단에는 코딩이나 컴퓨터 프로그래밍, 또는 그는 그것을 '해킹'이라고 부릅니다 에 오른쪽 상단은 통계 또는 통계, 수학 또는 정량적 인 능력입니다 과 밑바닥에는 도메인 전문 지식 또는 특정 분야의 실무에 대한 친밀한 친밀감이 있습니다

비즈니스 또는 건강, 교육 또는 과학 또는 그와 유사한 것 그리고 교차점 여기 중간에 데이터 과학이 있습니다 코딩과 통계의 조합입니다 수학 및 도메인 지식 이제 코딩에 대해 조금 더 설명해 보겠습니다

이유 코딩은 데이터를 수집하고 준비하는 데 도움이되기 때문에 중요합니다 많이 있기 때문에 데이터는 새로운 출처에서 비롯되며 반드시 수집해야하는 것은 아닙니다 매우 특별한 형식 일 수 있습니다 코딩이 중요하기 때문에 코딩이 중요합니다 소스에서 데이터를 가져와 분석에 적용 할 수있는 진정한 창의력입니다

자, 중요한 몇 가지 종류의 코딩; 예를 들어, 통계적 코딩이 있습니다 이것의 주요 언어로는 R과 Python이 있습니다 두 가지 오픈 소스 무료 프로그래밍 언어 R, 특히 데이터 용 파이썬은 범용이지만 데이터에 잘 적응합니다

데이터베이스 작업 능력 또한 중요합니다 가장 일반적인 언어는 SQL입니다 일반적으로 구조화 된 쿼리 언어를 나타내는 "Sequel"이라고 발음합니다 데이터가있는 곳 또한 명령 줄 인터페이스가 있거나 Mac에있는 경우 사람들이 그냥 "터미널"이라고 부르십시오

가장 일반적인 언어는 배쉬입니다 Bourne-again 쉘용 그리고 검색은 중요하고 정규식 또는 정규식입니다 거기에 배울 수있는 엄청난 금액 (작은 작은 필드)이 아니지만, 그것은 일종의 슈퍼 파워 와일드 카드 검색과 같이 데이터를 분석하고 분석에 도움이되는 방식으로 다시 형식을 지정하십시오 지금, 수학에 대해 몇 가지 예를 들어 봅시다

너는 약간의 일이 필요할거야 확률, 일부 대수학, 물론, 회귀 (매우 일반적인 통계 절차) 그 모든 것이 중요합니다 수학이 필요한 이유는 그것이 도움이되기 때문입니다 보유하고있는 데이터로 질문에 대답하는 적절한 절차를 선택하십시오

아마 더 중요한 것은; 문제가 발생할 때 문제를 진단하는 데 도움이 될 것입니다 기대했던대로 가지 마라 그리고 새로운 데이터로 새로운 일을하려한다는 점을 감안할 때 새로운 방식으로, 당신은 아마도 문제를 겪게 될 것입니다 이해할 수있는 능력 무슨 일이 벌어지고 있는지에 대한 메 커닉은 당신에게 큰 이점을 줄 것입니다 그리고 세 번째 데이터 과학 Venn Diagram의 요소는 일종의 도메인 전문 지식입니다

생각 해봐 당신이 속해있는 분야의 전문가로서 비즈니스 설정이 일반적입니다 너는 ~해야 해 그 분야의 목표, 사용 된 방법, 사람들이 와서

그리고 결과가 무엇이든 관계없이 여러분이해야 할 일이 중요합니다 그들을 잘 구현할 수 있습니다 데이터 과학은 매우 실용적이며 성취하기 위해 고안되었습니다 어떤 것 그리고 특정 실습 분야에 익숙해지면 분석 결과를 구현할 때 훨씬 쉽고 효과적입니다

자, 가자 여기 벤 다이어그램으로 돌아가십시오 Venn이기 때문에 한 번에 두 원의 교차점 맨 위에는 기계 학습이 있습니다 바닥에 권리는 전통적인 연구입니다

그리고 왼쪽 하단에는 Drew Conway가 호출 한 것이 있습니다 "위험 지대"나는이 각각에 대해 이야기하겠습니다 우선, 기계 학습, 또는 ML 이제 기계 학습에 대해 생각해 봅니다

여기서는 코딩을 나타내는 것으로 생각합니다 또는 통계 프로그래밍과 수학을 사용하지 않고 실제 도메인 전문 지식을 활용할 수 있습니다 때때로 이를 "블랙 박스"모델이라고합니다 그들은 일종의 데이터를 던지고 당신은하지 않습니다 심지어 그것이 무엇을 의미하는지 또는 어떤 언어인지를 반드시 알아야 할 필요가 있습니다

그것은 모든 것을 통해 위기의 종류와 그것은 당신에게 몇 가지 규칙을 줄 것이다 그럴 수 있습니다 도움이되었지만 기계 학습은 데이터 과학과 약간 다른 것으로 간주됩니다 특정 도메인의 특정 응용 프로그램을 포함하지 않습니다 또한 전통적인 연구

여기에는 수학이나 통계가 있으며 도메인 지식이 있습니다 종종 아주 집중적 인 도메인 지식이지만 코딩이나 프로그래밍이 필요 없습니다 이제, 당신은 도망 갈 수 있습니다 기존 연구에서 사용하는 데이터가 고도로 구조화되어 있기 때문에 그러한 점이 있습니다 행과 열로 제공되며 일반적으로 완료되며 일반적으로 분석 할 준비가됩니다

당신의 인생이 쉽다는 것을 의미하지는 않습니다, 왜냐하면 지금 당신은 엄청난 양을 팽창해야하기 때문입니다 프로젝트의 방법과 디자인에 대한 노력과 데이터 그럼에도 불구하고, 여전히 매우 무거운 지적인인지 작업이지만 그것은 다른 곳에서 온 것입니다 그리고 마지막으로, 콘웨이가 "위험 지대"라고 부르는 것이 있습니다 그리고 그것은 교차로입니다 코딩 및 도메인 지식은 있지만 수학이나 통계는 필요하지 않습니다

이제 그는있을 법하지 않다고 말한다 일어날 수 있고, 그것은 사실 일 것입니다 다른 한편으로, 나는 몇 가지 일반적인 예를 생각할 수 있는데, 대형 문서 또는 일련의 문서를 가져 오는 "단어 수" 거기에 단어가 몇 번 나왔는지 계산해보십시오 그건 사실 알려줄 수 있어요 매우 중요한 것

또한지도를 그려 물건이 장소를 가로 질러 어떻게 변하는지를 보여줍니다 어쩌면 시간이 지날 수도 있습니다 당신은 반드시 수학을 가질 필요는 없지만, 그것은 매우 수 있습니다 통찰력 있고 도움이된다 그래서 사람들이 오는 몇 가지 배경에 대해 생각해 봅시다

여기에서 첫째, 코딩입니다 코더 인 사람들, 수학, 통계학을 할 수있는 사람들, 및 비즈니스 그래서, 당신은 세 가지를 얻습니다 (그리고 이것은 아마 가장 일반적입니다) 사람들은 프로그래밍 배경에서 왔습니다

다른 한편, 통계도 있습니다 통계 또한 코드를 작성하고 비즈니스를 수행 할 수있는 통계 전문가를 확보 할 수 있습니다 그다지 흔하지 않지만 일어난다 마지막으로 데이터에 참여하는 사람들이 있습니다

특정 영역의 과학 그리고 이것들은 예를 들어, 코드 및 할 번호 그리고 그들은 최소한의 공통점이 있습니다 그러나이 모든 것들은 데이터 과학 그리고 합하면, 우리가 빼앗을 수있는 것이 있습니다

첫째, 여러 필드가 up 데이터 과학 둘째, 다양한 기술과 배경이 중요하며 필요합니다 데이터 과학 셋째, 많은 역할이 있기 때문에 관련된 많은 역할이 있습니다 일어날 필요가있는 다른 것들

우리는 다음 영화에서 그것에 대해 더 많이 말할 것입니다 그만큼 데이터 과학 소개의 다음 단계와 데이터 과학의 정의는 이야기하는 것입니다 데이터 과학 통로에 관해 그래서 저는 이것을 당신이 일할 때 생각하고 싶습니다 주요 프로젝트에서, 당신은 한 번에 한 걸음 씩 여기에서 저기로 가야합니다

데이터 과학에서는 다양한 단계를 수행 할 수 있으며 두 단계로 구성 할 수 있습니다 일반 카테고리 첫째, 계획 수립과 관련된 단계가 있습니다 둘째, 데이터 준비 셋째, 실제 데이터 모델링이 있습니다

넷째, 후속 조치가 있습니다 그리고 이들 각각에는 몇 가지 단계가 있습니다 나는 그들 각각을 간단히 설명 할 것이다 먼저 계획에 대해 이야기 해 봅시다 먼저해야 할 일은 프로젝트의 목표를 정의하여 리소스를 잘 사용하는 방법을 알고 있어야합니다

당신은 언제 끝났는지 압니다 둘째, 리소스를 정리해야합니다 그래서 당신은 가질 수 있습니다 몇몇 다른 근원에서 자료; 당신은 다른 소프트웨어 꾸러미를 가지고 있을지도 모른다 다른 사람들이있어

세 번째로 우리를 데려다줍니다 사람들을 조정해야합니다 그래서 그들은 생산적으로 함께 일할 수 있습니다 손을 떼고 있다면 분명해야합니다 누가 무엇을 할 것이며, 어떻게 그들의 일이 함께 할 것인가

그리고 나서, 정말로 분명한 사실을 밝히기 위해서는 프로젝트가 원활하게 진행될 수 있도록 프로젝트 일정을 잡아야합니다 합리적인 시간 내에 끝낼 수 있습니다 다음은 데이터 준비입니다 음식 준비와 같이 먹고 원료 성분을 준비하는 것 물론 처음입니다

데이터를 가져와야합니다 그리고 그것은 많은 다른 출처에서 그리고 많은 다른 것 형식 슬프게도 데이터 정리가 필요합니다 이것은 매우 큰 경향이 있습니다 어떤 데이터 과학 프로젝트의 일부

그리고 그것은 당신이 비정상적인 데이터를 가져 오기 때문입니다 다른 장소에서 또한 데이터를 탐색하려고합니다 즉, 실제로 무엇이 보이는지 얼마나 많은 사람들이 각 그룹에 속해 있는지, 배포판의 모양 마치 무엇과 관련이 있는가? 데이터를 수정해야 할 수도 있습니다 그리고 그 포함 할 변수 선택, 포함 또는 제외 할 사례 선택, 변형 만들기 필요한 데이터로 이동하십시오

그리고 물론 이러한 단계는 앞뒤로 튀어 나올 수 있습니다 하나에서 다른 하나까지 세 번째 그룹은 모델링 또는 통계 모델링입니다 이것은 실제로 통계 모델을 만들고 싶습니다 예를 들어 회귀를 할 수 있습니다

분석을하거나 신경 네트워크를 할 수도 있습니다 하지만, 무엇을 하든지간에 모델을 검증하려면 모델을 검증해야합니다 당신은 홀드 아웃 밸리데이션으로 그렇게 할 수 있습니다 당신 가능한 경우 아주 작은 복제를 사용하여 실제로 그렇게 할 수 있습니다 또한 다음을 평가해야합니다

모델 따라서 모델이 정확하다는 것을 알게되면 모델이 실제로 무엇이며 어떻게 많이 알려주지? 그리고 마지막으로 모델을 수정해야합니다 예를 들어, 버리고 싶은 변수가있을 수 있습니다 어쩌면 당신이 포함하고 싶은 추가 항목 일 수도 있습니다 일부 데이터를 다시 변환 할 수도 있습니다

당신은 그것을 얻고 싶어 할지도 모른다 쉽게 해석하고 적용 할 수 있습니다 그리고 그것은 우리를 데이터 과학 통로의 마지막 부분으로 이끌어줍니다 그리고 그것은 후속 조치입니다 일단 모델을 만들면 모델을 제시해야합니다

그것은 일반적으로 클라이언트를 위해 수행되고있는 작업이기 때문에 집안에있을 수 있습니다 제 3 자 그러나 당신은 당신이 가진 통찰력을 가지고 의미있는 것을 공유해야합니다 다른 사람들과 방법 또한 모델을 배포해야합니다

그것은 보통 순서대로 행해지고있다 뭔가를 달성하기 위해 예를 들어, 전자 상거래 사이트로 작업하는 경우, 당신은 추천 엔진을 개발 중일 것입니다 이것을 살 수도 있습니다 "실제로 웹 사이트에 그것을 붙여야하고 그것이 작동하는지 확인해야합니다

네가 예상했던대로 그런 다음 모델을 다시 방문해야합니다 시간에 따라 작업 한 데이터가 반드시 모든 데이터가되는 것은 아닙니다 현실 세계에서 벗어나거나 시간이 지남에 따라 바뀌면 바뀝니다 그래서, 당신은 모델이 얼마나 잘 작동하는지 확인하십시오

그런 다음 철저히 조사하기 위해 보관해야합니다 자산, 보유하고있는 것을 문서화하고 귀하 또는 다른 사람들이 반복 할 수있게하십시오 미래의 분석 또는 개발 그래서, 그것들은 일반적인 단계입니다 데이터 과학 경로를 고려하십시오

요약하면, 우리가 이것으로부터 얻는 것은 세 가지입니다 첫째, 데이터 과학은 단순한 기술 분야가 아니라 코딩 일뿐입니다 같은 것들, 계획 및 발표 및 실행은 중요합니다 또한 문맥 기술, 특정 분야에서 어떻게 작동 하는지를 알고, 어떻게 구현 될 것인지를 안다 기술도 중요합니다

그리고이 모든 일에서 얻은 것처럼 많은 것들이 있습니다 해야 할 일 한 번에 한 단계 씩 나아가면 역 추적이 줄어들고 궁극적으로 데이터 과학 프로젝트에서 더 생산적 일 것입니다 우리는 계속할 것이다 데이터 과학에 관련된 역할을 살펴봄으로써 데이터 과학에 대한 우리의 정의

다른 사람들이 그것에 기여할 수있는 방법 공동 작업을하는 경향이 있기 때문입니다 우리 모두가 함께 있고, 함께 일하고 있다고 말할 수 있다는 것은 좋은 일입니다 하나의 목표 그럼, 데이터 과학에 관련된 몇 가지 역할에 대해 이야기하고 그들이 프로젝트에 어떻게 기여했는지

먼저 엔지니어를 살펴 보겠습니다 이들 백엔드 하드웨어에 집중하는 사람들입니다 예를 들어, 서버 및 소프트웨어 그것들을 실행합니다 이것이 데이터 과학을 가능하게하는 요소이며, 개발자, 소프트웨어 개발자 또는 데이터베이스 관리자 그리고 나머지 부분을위한 기초를 제공합니다

일의 다음으로 Big Data 전문가 인 사용자를 보유 할 수도 있습니다 이들은 사람들이다 컴퓨터 과학 및 수학에 중점을두고 기계 학습 알고리즘을 수행 할 수 있습니다 매우 많은 양의 데이터를 처리하는 방법입니다

그리고 그들은 종종 불리는 것을 창조합니다 데이터 제품 그래서, 어떤 레스토랑에 가야할지 알려주거나, "너 친구를 알 수도 있습니다 "또는 사진을 연결하는 방법을 제공합니다 그것들은 데이터 제품이고, 그것들은 종종 그들 뒤에 아주 많은 양의 기술적 인 작업을 필요로합니다

또한있다 연구원; 이들은 도메인 특정 연구에 집중하는 사람들입니다 예를 들어, 물리학, 또는 유전학, 또는 뭐든간에 그리고이 사람들은 매우 강력한 통계를 가지고있는 경향이 있습니다 일부 절차와 일부 데이터를 다른 프로세스에서 사용할 수 있습니다 큰 데이터 연구자처럼 사람들은 특정 질문에 집중합니다

또한 데이터 과학 영역에서는 분석가를 찾을 수 있습니다 이들은 일상 생활에 집중하는 사람들입니다 사업 운영의 임무 예를 들어 웹 분석 (Google 애널리틱스와 같은), SQL 데이터베이스에서 데이터를 가져올 수도 있습니다 그리고이 정보는 매우 중요합니다

좋은 사업 따라서 분석가는 일상적인 업무 기능의 핵심이지만 실제로 데이터 과학이 적절하지 않을 수도 있습니다 왜냐하면 그들이 작업하는 대부분의 데이터가 정확하기 때문입니다 은 꽤 구조화 될 것입니다 그럼에도 불구하고, 그들은 일반적으로 비즈니스에서 중요한 역할을합니다 그런 다음 비즈니스에 대해 이야기합니다

당신은 실제 사업 사람들이 있습니다 남녀 누가 사업을 조직하고 운영하는지 이러한 사람들은 비즈니스 관련 프레임을 작성할 수 있어야합니다 데이터로 대답 할 수있는 질문 또한, 사업 담당자가 프로젝트를 관리합니다

그리고 다른 사람들의 노력과 자원 그리고 실제로는 그렇게하지 않을 수도 있습니다 코딩, 그들은 데이터를 말해야합니다; 데이터가 어떻게 작동하는지, 응답 할 수있는 것은 무엇인지, 그리고 그것을 구현하는 방법 당신은 또한 기업가를 가질 수 있습니다 따라서 데이터를 시작할 수 있습니다

그들은 자신의 작은 소셜 네트워크를 시작, 자신의 작은 웹 검색 플랫폼 기업가 데이터 및 비즈니스 기술이 필요합니다 그리고 사실, 그들은 모든 단계에서 창조적이어야합니다 그 길 보통 그들은 더 작은 규모로 모든 일을하고 있기 때문입니다

그럼 우리는 데이터 과학에서 "전체 스택 유니콘"이라고 알려진 것을 가지고 있습니다 그리고 이것은 사람입니다 누가 전문가 수준에서 모든 것을 할 수 있는지 그들은 진실되게 유니콘이라 불리며, 그들은 실제로 존재하지 않을 수도 있습니다 나는 나중에 그것에 대해 더 말할 것입니다 그러나 지금 당장은, 우리는이 비디오에서 우리가 얻은 것을 세 가지로 요약 할 수 있습니다

1 위, 데이터 과학 다양합니다 거기에 들어가는 많은 사람들이 있고, 그들은 다른 목표를 가지고 있습니다 그들의 일을 위해, 그리고 그들은 다른 기술과 다른 경험을 가져오고 다른 구혼 또한, 그들은 매우 다른 맥락에서 일하는 경향이 있습니다 기업가가 일한다

아주 다른 곳에서 일하는 비즈니스 관리자와는 아주 다른 곳에서 학자 연구원에게서 그러나 이들 모두는 데이터 과학에 어떤 식 으로든 연결되어 있습니다 그리고 그것을 더 부유 한 분야로 만드십시오 "데이터 과학 : 소개"에서 내가 말하고 싶은 마지막 사항 데이터 과학을 정의하려고 할 때, 데이터 과학 팀을 이야기하는 것입니다 그만큼 여기서 아이디어는 데이터 과학이 다양한 도구를 가지고 있으며 다른 사람들이 될 것이라는 것입니다

각자의 전문가 자, 예를 들어 코딩을하고 통계를 얻었습니다 또한 디자인, 사업 또는 경영과 관련된 것으로 느껴질 수 있습니다 그리고 물론, 질문은 : "누가 그것을 모두 할 수 있습니까? 누가이 모든 것을 할 수 있니? 우리가 필요로하는 수준의 것들? "글쎄, 그것이 우리가이 말을하는 곳이다 (나는 언급했다 그 전에는) 유니콘이에요

고대 역사와 마찬가지로 유니콘은 신화적인 존재입니다 마법의 능력을 가진 생물 데이터 과학에서, 그것은 조금 다르게 작동합니다 신화 적이다 보편적 인 능력을 가진 데이터 과학자

문제는 현실 세계에서 알 수 있듯이, 실제로 유니콘 (동물)이 없으며 실제로는 유니콘이별로 없습니다 데이터 과학 실제로, 사람들이 있습니다 그래서 우리는 우리가 어떻게 할 수 있는지 알아야합니다 비록 우리 모두를 위해 모든 것을 할 수있는 한 사람이 없더라도 프로젝트가 진행됩니다

잠시 동안 가상의 경우를 생각해 봅시다 나는 너에게 어떤 것을 줄 것이다 허구의 사람들 여기 내 허구의 사람 오토가 강력한 시각화 기술을 가지고 있으며, 누가 코딩을 잘하지만 분석적 또는 통계적 능력이 제한적입니다 그리고 우리가 그래프를 그린다면 물건을 내고, 그의 능력을

그래서, 여기에 우리가해야 할 다섯 가지 일이 있습니다 과 프로젝트가 작동하려면 최소한 0에서 10까지 8 단계가 발생해야합니다 우리가 코딩 능력을 가지고 있다면 그는 거의 거기에 있습니다

통계, 중간 정도는 아닙니다 제도법, 네, 그렇게 할 수 있습니다 그리고 나서, 사업, 어, 괜찮아 그리고 프로젝트, 꽤 좋아 그래서, 무엇 당신은 여기에서 볼 수 있습니다,이 5 가지 영역 중 오직 하나는 오토만으로 충분합니다

다른 한편으로, 그를 다른 누군가와 짝 지어 ​​봅시다 루시를 살펴 봅시다 루시는 강력한 비즈니스 교육을 받았으며 뛰어난 기술력을 갖추고 있지만 그래픽은 제한적입니다 그리고 우리가 본 것과 똑같은면에서 그녀의 프로필을 얻으면 코딩이 잘됩니다 꽤 좋은 통계

그래픽이 아닙니다 잘 했어 그리고 프로젝트 지금, 여기서 중요한 것은 우리가 팀을 만들 수 있다는 것입니다 그럼 우리 두 가상의 사람들, 오토와 루시, 우리는 그들의 능력을 종합 할 수 있습니다

자, 실제로 변경해야합니다 이 두 가지를 모두 수용 할 수있는 약간의 규모 그러나 우리의 기준은 여전히 8시입니다 우리는 프로젝트를 유능하게 수행하기 위해 8 단계가 필요합니다 우리가 결합하면 그들 : 아, 코딩은 이제 8을 넘었습니다

통계는 8 년이 넘었습니다 그래픽 방식은 과거입니다 사업 방법 과거 그런 다음 프로젝트도 마찬가지입니다 우리가 그들의 기술을 결합 할 때, 우리는 우리가 모든 것에 필요한 수준을 얻을 수 있습니다

또는 다른 방식으로 말하면, 우리는 이제 팀별 유니콘을 통해 데이터 과학 프로젝트를 수행 할 수 있습니다 그래서, 합계 : 당신은 보통 당신 스스로 데이터 과학을 할 수 없습니다 그것은 매우 드문 개인입니다 이상 구체적으로 : 사람들은 사람을 필요로하며, 데이터 과학에서는 몇 가지 사람들을 모으고 집단 유니콘을 만들면 자신이 필요로하는 통찰력을 얻을 수 있습니다 프로젝트와 당신이 원하는 일을 얻을 수 있습니다

더 나은 이해를 얻으려면 데이터 사이언스와 기타 사이의 대조를 살펴 보는 것이 도움이 될 수 있습니다 전지 빅 데이터의 경우 가장 유익한 정보는 실제로이 두 용어가 종종 혼란 스럽다 그것은 내가 비슷한 상황에 대해 생각하게합니다 그러나 동일하지 않습니다

이탈리아의 산 카를로 (San Carlo) 피아자 장소에 있습니다 의 일부 문제는 데이터 과학과 빅 데이터 모두가 벤 다이어그램과 관련되어 있다는 사실에서 유래합니다 그들과 함께 예를 들어 Venn은 데이터 과학 분야에서 우리가 본 것입니다 이미 우리는 세 개의 원을 가지고 있고 코딩이되어 있으며 수학이 있으며 도메인이 있습니다

전문 지식, 함께 데이터 과학 반면에 벤 다이어그램 2 번 빅 데이터 용입니다 또한 세 개의 원이 있습니다 그리고 우리는 많은 양의 데이터와 빠른 데이터를 가지고 있습니다 데이터 속도 및 다양한 데이터를 제공합니다

그 3 개의 v를 함께 가져라 당신은 빅 데이터를 얻습니다 이제 세 번째 Venn Diagram에서 원한다면이 둘을 결합 할 수 있습니다 빅 데이터 (Big Data and Data Science)라고 부릅니다 이번에는 단지 두 개의 원입니다

빅 데이터로 왼쪽에는 데이터 과학이, 오른쪽에는 데이터 과학이 있습니다 그리고 중간에 교차로, 빅 데이터가 있습니다 과학, 실제로는 진짜 용어입니다 그러나 비교와 대비를 원한다면, 당신이 다른 사람없이 하나를 가질 수있는 방법을 보는 것이 도움이됩니다 자, 시작하자

데이터 과학없이 빅 데이터를 살펴 봅니다 그래서, 이것들은 여러분이 가질 수있는 상황입니다 볼륨 또는 속도 또는 다양한 데이터가 있지만 데이터 과학의 모든 도구가 필요하지는 않습니다 그래서 방정식의 왼쪽을보고 있습니다 자, 진실하게,이 3 개의 V가 모두없는 큰 데이터가있는 경우에만 작동합니다

어떤 사람들은 당신이 볼륨, 속도 및 다양성을 Big Data로 계산합니다 나는 기본적으로 아마도 표준 데이터베이스에 맞지 않습니다 몇 가지 예를 생각해 볼 수 있습니다 빅 데이터 (Big Data)로 간주 될 수있는 것들에 대해서는 여기에 있지만 데이터 과학으로 간주되지는 않습니다 기계 매우 큰 데이터 세트를 가질 수 있고 매우 복잡 할 수있는 학습 매우 많은 도메인 전문 지식을 필요로하므로 데이터 과학이 아닐 수도 있습니다

단어 개수 당신은 엄청난 양의 데이터를 가지고 있습니다 실제로는 아주 간단한 분석입니다 정량적 기술이나 심지어 도메인 전문성 측면에서 많은 정교함을 필요로합니다 어쩌면 / 아마도 데이터 과학이 아닙니다 다른 한편으로, 이들 중 어떤 것을하기 위해서 당신은 적어도 두 가지 기술

코딩이 필요할 것입니다 일종의 양적 기술을 보유하고 있습니다 그렇다면 빅이없는 데이터 과학은 어떨까요? 데이터? 그것이이 다이어그램의 오른쪽입니다 글쎄, 당신이 아마 일어날 수 있도록 Big Data의 세 가지 V 중 하나만 사용하여 데이터에 대해 이야기합니다 따라서 볼륨 또는 속도 또는 다양성, 그러나 단 하나

그래서 예를 들어, 유전학 데이터 엄청난 양의 데이터가 있습니다 매우 세팅 된 구조로되어 있으며 한 번에 들어올 수 있습니다 그래서, 당신은 많은 것을 가지고 있습니다 볼륨과 함께 작업하는 것은 매우 어려운 일입니다

당신은 데이터 과학, 빅 데이터로 간주 될 수도 있고 그렇지 않을 수도 있습니다 마찬가지로 데이터가있는 스트리밍 센서 데이터 매우 빨리 들어오지 만 반드시 저장하는 것은 아닙니다 너는이 창들을보고있다 그 안에 속도가 너무 빠르며 다루기가 어렵고 데이터를 필요로합니다

과학, 전체 기술 집합이지만 Big Data 자체는 필요하지 않을 수 있습니다 또는 얼굴 인식, 당신은 사진이나 비디오를 가져 오기 때문에 데이터가 엄청나게 다양합니다 다시 들어 오기가 어렵고, 독창성과 창조성이 많이 필요합니다 당신이 정의에 얼마나 많은 영향을 미치는지에 따라 Big Data로 간주 될 수도 있고 그렇지 않을 수도 있습니다 자, 두 가지를 결합하고 싶다면 Big Data Science에 대해서 이야기 할 수 있습니다

이 경우, 우리는 바로 여기에서 찾고 있습니다 이것은 볼륨이있는 상황입니다 속도 및 다양성을 제공하고 진실하게, 만약 당신이 그 중 3 개가 있다면, 당신은 가고 있습니다 전체 데이터 과학 기술 세트가 필요합니다 당신은 코딩과 통계가 필요할 것입니다

그리고 수학, 그리고 당신은 도메인 전문 지식을 가지고 있어야합니다 주로 당신이 다루는 다양성, 그러나 모두 함께 가져 가면 모든 것을 가질 수 있습니다 그래서 요약하면, 여기에 우리가 얻는 것이 있습니다 빅 데이터는 데이터 과학과 동일하지 않습니다 이제는 공통점이 있으며 빅 데이터를 잘 다루는 많은 사람들이 잘하고 있습니다

데이터 과학 및 그 반대로, 개념적으로 구별됩니다 한편, 두 개의 개별 분야를 통합하는 빅 데이터 사이언스의 공통된 중점이 있습니다 데이터 과학을 이해하려고 시도 할 때 또 다른 중요한 차이점은 그것은 코딩 또는 컴퓨터 프로그래밍과 함께 자,이 곳에서 당신과 함께 일하려고합니다 기계와 당신은 그 기계와 대화하려고 노력하고 있습니다

어떤 의미에서 코딩은 작업 지시 사항을 제공하는 것으로 생각할 수 있습니다 어떻게하는지 이것은 요리 할 때 조리법을 좋아하십시오 일종의 사용자 입력이나 다른 입력을받습니다 그리고 아마도 if / then 로직을 가지고있을 것이고, 당신은 그것으로부터 출력을 얻을 것입니다

극단적으로 취하기 간단한 예를 들어, Python 버전 2로 프로그래밍하고 있다면, 다음과 같이 쓴다 : print, 그리고 나서 따옴표 안에 "Hello, world!"라고하면 "Hello, world!"라는 단어가 화면에 표시됩니다 그래서, 당신은 그것에게 약간의 지시를 주었고 그것은 당신에게 약간의 결과를주었습니다 아주 간단한 프로그래밍 이제는 코딩과 데이터가 좀 더 복잡해졌습니다 예를 들어, 단어 수가 있습니다

너는 책이나 책 전체를 가져 가면, 너는 그 말을 듣고 너는 몇 권을 셀까? 거기에있다 이제 개념적으로 간단한 작업이며 도메인 전문 지식과 실제로 수학 및 통계는 중요하지 않습니다 그러나 유효한 추론과 일반화를 만들기 위해서 데이터의 변동성과 불확실성에 직면하여 통계가 필요하며, 데이터 과학이 필요합니다 두 도구를 비교하는 데 도움이 될 수 있습니다 거래

예를 들어 코딩이나 일반적인 컴퓨터 프로그래밍을위한 도구가 있습니다 데이터 과학을위한 도구가 있습니다 제가 여기있는 것은 목록입니다 IEEE의 상위 10 개 프로그래밍 언어 2015 년 그리고 그것은 자바와 C에서 시작하고 간다

쉘까지 내려 갔다 그리고 이들 중 일부는 데이터 과학에도 사용됩니다 그래서 예를 들어, 파이썬 R과 SQL은 데이터 과학에 사용되지만 다른 것들은 데이터 과학에서 중요하지 않습니다 과학 이제 실제로 가장 인기있는 도구 목록을 살펴 보겠습니다 데이터 과학을 사용하면 상황이 조금씩 움직이는 것을 볼 수 있습니다

자, R이 맨 위에 있고, SQL은 거기에있다, 파이썬이있다 그러나 나에게있어서 가장 흥미로운 것은 목록에있다 엑셀은 5 번입니다 프로그래밍 자체로 간주되지는 않지만, 사실, 데이터 과학을위한 매우 중요한 도구입니다 그리고 그것은 그 중 하나입니다

우리는 컴퓨터 프로그래밍과 데이터 과학을 비교하고 대조 할 수 있습니다 요약하면 다음과 같이 말할 수 있습니다 데이터 과학은 코딩과 동일하지 않습니다 그것들은 다른 것들입니다 반면에, 그들은 일부 도구를 공유하고 특히 데이터를 코딩 할 때 몇 가지 사례를 공유합니다

반면에, 통계에는 매우 큰 차이점이 하나 있습니다 통계 능력은 범용 프로그래밍과 데이터 과학 프로그래밍 간의 주요 분리 자 중 하나입니다 우리가 데이터 과학에 관해 이야기하고 일부 분야와 대조 할 때, 다른 분야 많은 사람들이 혼란스러워하고 그들이 똑같은 것이라고 생각하는 것은 데이터 과학과 통계 이제는 공통점이 많다는 것을 말씀 드리지만 조금 이야기 할 수 있습니다 각각의 다른 초점에 대해 조금

그리고 우리는 또한 정의 론적 문제에 빠지게됩니다 데이터 과학은 우리가 다르게 정의하기 때문에 다르다 두 사람 사이에 공통점이 많습니다 몇 가지 일을 살펴 보는 것이 도움이됩니다 각 분야에서 계속됩니다

이제 통계에 대해 알아 보겠습니다 작은 동그라미를 치다 여기에 우리는 데이터 과학을 넣을 것입니다 스티븐 J 굴드 (Steven J

Gould)의 말을 빌리 자면 이 중첩되지 않는 magisteria를 부르십시오; 수암 그래서, 당신은 그것들을 별도의 필드로 생각합니다 서로와 아무 상관없이 스스로 주권을 갖는다 하지만 알다시피 옳지 않은 것 같아 그리고 그 부분은 우리가 데이터 과학 벤 (Data Science Venn)으로 돌아 가면 다이어그램, 통계도 그 중 하나입니다

바로 위에 있습니다 이제 우리는 무엇을할까요? 해야 할 것? 그 관계가 뭐야? 그래서, 이것이 완전히 별개라고 말하는 것은 이치에 맞지 않습니다 영역, 어쩌면 데이터 과학 및 통계를 공유하기 때문에 절차, 어쩌면 데이터 과학 통계의 하위 집합 또는 특수 항목입니다 그러나 데이터 과학이 통계 내의 부분 집합 또는 전문 분야라면 모든 데이터 과학자가 먼저 통계 학자가 되라 그리고 흥미롭게도 그것은 그렇게 중요하지 않습니다

예를 들어, 우리는 현장의 슈퍼 스타 인 데이터 과학 스타를 살펴보십시오 우리는 오히려 협박하는 기사; Forbescom의 "세계에서 가장 힘있는 7 명의 데이터 과학자"라고합니다 이 URL로 이동하면 기사를 볼 수 있습니다 실제로 7 명 이상이 있습니다

때로는 쌍으로 그들을 데려 오기 때문에 학위를 확인하고, 그들의 학위를 확인해 봅시다 학문적 훈련이 있습니다 우리가이 목록에있는 모든 사람들을 데려 간다면 우리는 5도 컴퓨터 과학에서 수학에서 3, 공학에서 2, 생물학, 경제학, 법률, 언어 병리학, 통계학 등이 있습니다 그리고 그것은 물론 우리에게 이러한 주요한 것들을 말해줍니다

데이터 과학 분야의 사람들은 통계 학자로서 훈련받지 못했습니다 그들 중 오직 하나만 공식적으로 훈련 그래서, 다음 질문으로 넘어 가게됩니다 이 두 분야는 어디에, 통계 및 데이터 과학, 발산? 그들은 공통점이 많아야하는 것처럼 보이기 때문에, 그러나 그들은 훈련을 많이하지 않습니다 특히, 우리는 훈련을 볼 수 있습니다

대부분의 데이터 과학자 정식으로 통계 학자로서 훈련받지 못했다 또한 실제로는 기계 학습과 같은 것들 데이터 과학의 중심 인 큰 데이터는 일반적으로 대부분의 통계와 공유되지 않습니다 그래서, 그들은 거기에 별도의 도메인을 가지고 있습니다 그리고 나서 중요한 맥락의 문맥이 있습니다 데이터 과학자들은 통계 학자와 다른 환경에서 일하는 경향이 있습니다

구체적으로는, 데이터 과학자들은 종종 상업 환경에서 일하면서 추천을 얻으 려합니다 엔진 또는 돈을 벌 수있는 제품을 개발하는 방법에 대해 설명합니다 그래서, 대신에 데이터 과학은 통계의 하위 집합이므로이 두 분야로 더 많이 생각할 수 있습니다 다른 틈새 시장이있다 그들은 둘 다 데이터를 분석하지만 서로 다른 방식으로 데이터를 처리합니다

방법 그래서, 아마도 그들이 공유하고, 겹치며, 공통적 인 분석을한다는 말은 공평합니다 그렇지 않으면 생태 학적으로 구별됩니다 그래서, 요약하면 : 우리가 여기서 말할 수있는 것 데이터 과학과 통계 모두 데이터를 사용하고 분석한다는 것입니다 하지만 사람들은 각기 다른 배경을 가진 경향이 있으며, 서로 다른 목표를 가지고 기능하는 경향이 있습니다

및 문맥 그런 식으로도 개념적으로 별개의 필드로 보이게하십시오 명백한 오버랩 우리가 데이터 과학에 대한 이해를 얻으려고 노력할 때, 한 가지 더 대비가 있습니다 나는 명시 적으로 만들고 싶습니다 그것은 데이터 과학과 비즈니스 인텔리전스 사이에 있습니다

BI 여기서 아이디어는 비즈니스 인텔리전스가 실제 생활의 데이터라는 것입니다 그것은 매우, 매우 적용됩니다 물건 BI의 목적은 내부 운영, 시장 경쟁자, 바에 앉아있는 것과는 정반대의 결정을 내려야합니다

당신의 마음에 오는 모든 것을하십시오 이제 데이터 과학이이 문제와 관련됩니다 단, 실제로 BI에는 코딩이 없습니다 이미 존재하는 앱을 사용하고 있습니다 그리고 통계 비즈니스 인텔리전스의 경우 매우 단순한 경향이 있으며 카운트 및 백분율이 비율

그래서 간단합니다 전구는 간단합니다 그냥 그곳에서 한 가지 일을합니다 거기에 초 정교한 아무것도 없다 대신 비즈니스 인텔리전스의 초점은 도메인에 있습니다

전문 지식과 정말 유용한 직접 유틸리티 간단하고 효과적인 방법이며 통찰력 이제는 비즈니스 인텔리전스와 관련된 주요 협회 중 하나가 대시 보드 또는 데이터 대시 보드 그들은 이렇게 보입니다 그것은 차트 및 함께 진행되는 테이블을 통해 귀하의 업무에 대한 사업

많은 데이터 과학자들이 자신의 코를 들여다 볼 수도 있습니다 대시 보드, 나는 이것들을 말할 것입니다, 그들 중 대부분은 잘 설계되어 있습니다 대시 보드에서 사용자 상호 작용 및 접근성 정보에 대한 금액 정말, 어디서? 데이터 과학이이 문제에 봉착합니까? 데이터 과학과 비즈니스 간의 연관성 지성? 음, 데이터 과학은 BI를 설정하는 측면에서 유용 할 수 있습니다 식별 데이터 소스를 생성하고 대시 보드 또는 비즈니스 인텔리전스 시스템 또한 데이터 과학을 사용하여이를 확장 할 수 있습니다

데이터 과학 쉬운 질문과 쉬운 데이터를 얻기 위해 사용할 수 있습니다 실제로 가장 유용합니다 정말로 때로는 어려운 데이터가 필요할지라도 논쟁하고 함께 일하기 또한 흥미로운 상호 작용이 있습니다 다른 방법

데이터 과학 실무자는 훌륭한 비즈니스에서 디자인에 대해 많은 것을 배울 수 있습니다 지능형 애플리케이션 따라서 데이터 과학 분야의 모든 사람들이 그들에게주의 깊게 배워 무엇을 배울 수 있는지보십시오 요약하면 비즈니스 인텔리전스 또는 BI는 매우 유용합니다 목표 지향

데이터 과학은 아마도 데이터를 준비하고 비즈니스를위한 양식을 설정합니다 지능뿐만 아니라 데이터 과학도 유용성과 접근성에 대해 많은 것을 배울 수 있습니다 비즈니스 인텔리전스 그래서 항상 가까이서 볼 가치가 있습니다 데이터 과학은 그것에 대해 정말 멋진 것들이 많이 있지만, 윤리적 인 문제를 고려하는 것이 중요합니다

데이터 과학 프로젝트에서 특별히 "해를 끼치 지 마십시오"라고 부를 것입니다 그리고 그것 때문에 우리는 Hippocratic Do Do of No를 우리에게 준 사람 Hippocrates에게 감사를 표할 수 있습니다 해 특히 중요한 윤리적 문제에 대해 간단히 이야기합시다

데이터 과학에 등장합니다 번호 하나는 프라이버시입니다 그 데이터는 사람들에 대해 많이 알려줍니다 기밀성에 대해 염려해야합니다 사람들에 관한 개인 정보가 있다면, 그들의 이름, 사회 보장 번호, 주소, 신용 점수, 그들의 건강은 사적이고 기밀 사항이므로 정보를 공유해서는 안됩니다

그들이 특별히 당신에게 허락하지 않는 한 자, 이것이 특별한 선물을주는 이유 중 하나 데이터 과학에서의 도전은 나중에 보게 될 것입니다 왜냐하면 많은 소스가 사용되기 때문입니다 데이터 과학에서는 공유를 목적으로하지 않았습니다 웹 사이트 또는 웹 사이트에서 데이터를 스크랩 한 경우 PDF를 만들려면 확인을해야합니다

그러나 그것은 원래 만들어졌습니다 공유의 의도가 없기 때문에 프라이버시는 분석가에게 실제로 영향을 미칩니다 그들이 제대로하고 있는지 확인하십시오 다음은 익명 성입니다 흥미로운 것들 중 하나 우리는 데이터에서 사람들을 식별하는 것이 어렵지 않다는 것을 발견했습니다

너 조금이라도 있으면 GPS 데이터와 당신은 사람이 네 가지 시점에서 어디에 있었는지 알고 있습니다 그들이 누구인지 정확히 알 수있는 95 %의 기회 당신은 HIPAA와 같은 것을 봅니다 건강 보험 이식성 및 책임 성법 HIPAA 이전에는 식별하기가 정말 쉬웠습니다

의료 기록의 사람들 그 이후로 식별하기가 훨씬 더 어려워졌습니다 사람들이 독특하게 그것은 사람들의 행복을 위해 중요한 것입니다 그리고 또한, 독점 데이터; 고객, 회사를 위해 일하면서 고객에게 데이터에 식별자가있을 수 있습니다

사람들이 누구인지 알 수 있습니다 더 이상 익명이 아닙니다 익명 성이 존재할 수도 있고 없을 수도 있지만, 익명의 데이터 그러나 실제로, 주요한 것은 그들이 당신이 누군지 알고 있다면, 그것은 귀하는 여전히 데이터의 개인 정보와 기밀을 유지합니다 다음으로, 저작권, 사람들이 정보를 잠그려고하는 곳

자, 뭔가가 웹상에 있기 때문에, 귀하가 그것을 사용할 수 있음을 의미하지는 않습니다 웹 사이트에서 데이터 스크랩하기 프로젝트를위한 데이터를 얻는 공통적이고 유용한 방법 웹 페이지에서 데이터를 가져올 수 있습니다 PDF에서, 이미지에서, 오디오에서, 정말 많은 것들로부터 그러나 다시 가정 웹에 있기 때문에 사용하지 않는 것이 맞지 않습니다

항상 확인해야합니다 저작권을 확인하고 해당 특정 데이터에 액세스하는 것이 허용되는지 확인하십시오 다음 것, 우리의 매우 불길한 그림은 데이터 보안과 아이디어입니다 데이터 수집, 분석 정리 및 준비를위한 모든 노력 많은 사람들에게 매우 가치있는 것을 염려해야합니다 해커가 들어 와서 데이터를 도용하려고 시도합니다

특히 데이터가 익명이 아닌 경우 그 안에 식별자가 있습니다 따라서 애널리스트에게 부담을주는 추가 부담이 있습니다 자신의 능력을 최대한 발휘하여 데이터가 안전하고 침입 할 수 없도록해야합니다 도난 당했어 그리고 그것은 프로젝트에 참여하는 사람과 같은 아주 간단한 것들을 포함 할 수 있습니다

그러나 더 이상은 아니지만 플래시 드라이브에서 데이터를 가져 왔습니다 확실한 방법을 찾아야합니다 그런 일은 결코 일어나지 않을 것입니다 가능성은 많습니다 만, 까다 롭습니다 만 그것은 당신이 철저히 고려해야 만하는 것입니다 자, 다른 두 가지 윤리 측면에서 보면 그렇지만 일반적으로 이러한 대화에서 다루지 않습니다

번호 하나는 잠재적 편견이다 여기에 사용 된 아이디어는 알고리즘이나 사용 된 공식 데이터 과학은 중립적이거나 바이어스가없는 규칙과 데이터 만 제공합니다 과 그래서, 여기에있는 아이디어는 여러분이 관련된 어떤 것을 다루는 규칙을 가지고 있다면 예를 들어 성별, 나이 또는 인종 또는 경제적 지위와 관련하여 의도하지 않게 그 요인들로 만들어라 예를 들어, 9 번 타이틀에 대해 말하면 그럴거야 당신은 그것을 의식하지 않고 시스템에 구축 할 수 있습니다

알고리즘은 객관성에 대한 이러한 광채를 지니고 있으며, 사람들은 자신감을 가질 수 있다고 말한다 일어날 수있는 편견의 일부를 복제한다는 것을 깨닫지 못한 채 실생활 또 다른 문제는 과신이다 그리고 여기서의 아이디어는 분석이 제한된다는 것입니다 단순화

그들은 있어야합니다 그리고 이것 때문에, 당신은 이것을 해석하고 적용하는 것을 돕기 위해 여전히 루프 속에 인간이 필요합니다 문제는 사람들이 알고리즘을 실행하여 숫자를 얻고 소수점 이하 10 자리라고 말하면서 사실 이니라 "라고 말하면서 그것을 돌이킬 수없는 진리로 묘사한다 사실, 데이터가 편향된 경우; 알고리즘이 불완전한 경우, 샘플링이 대표가 아닌 경우, 엄청난 문제가 발생할 수 있으며, 너무 많은 자신감을 가지고 잘못된 길을 걸어 갈 수 있습니다

당신 자신의 분석 따라서 데이터 과학 작업을 할 때 다시 한 번 겸손이 필요합니다 요컨대 : 데이터 과학은 엄청난 잠재력을 가지고 있지만 또한 중대한 위험을 수반합니다 프로젝트에서 문제의 일부는 분석이 중립적이어서는 안된다는 것입니다 알고리즘이 선호도, 편견 및 편향과 어떻게 연관되어 있는지 살펴 보는 것 그 (것)들을 만든 사람들의

그게 무슨 뜻인지는 아무리 좋은 판단이라 할지라도 데이터 과학 프로젝트의 품질과 성공을 위해 항상 중요합니다 데이터 과학은 필드는 해당 방법이나 절차와 밀접하게 관련되어 있습니다 이 섹션에서는 비디오, 우리는 데이터 과학에서 사용되는 방법에 대한 간략한 개요를 제공 할 것입니다 이제는 빠른 경고와 마찬가지로이 섹션에서 일들이 기술적 인 측면을 가질 수 있으며 어떤 사람들은 괴물을 일으킬 수 있습니다 그러나이 코스는 비 기술적 인 개요입니다

물건에 대한 기술적 인 손은 다른 코스에 있습니다 그리고 기억하는 것이 중요합니다 그 기술은 단순히 데이터 과학을 수행하는 수단 일뿐입니다 통찰력 또는 의미를 찾아내는 능력 귀하의 데이터에, 그것은 목표입니다 Tech는 귀하가 그곳으로 가는데 도움이됩니다

그래서 우리는 주로 초점을 맞추기를 원합니다 통찰력, 도구 및 기술이 목표를 달성하는 데 도움이됩니다 자, 여기있다 몇 가지 일반적인 카테고리, 다시 말하면 각각에 대한 개요가 있습니다 이들

첫 번째는 소싱 또는 데이터 소싱입니다 그것이 데이터를 가져 오는 방법입니다 데이터 과학, 당신이 필요로하는 원료 두 번째는 코딩입니다 다시 컴퓨터 프로그래밍입니다

데이터를 얻고 조작하고 분석하는 데 사용할 수 있습니다 그 후, 작은 비트 수학은 실제로 데이터 과학 방법의 배후에있는 수학입니다 절차의 기초 그런 다음 통계, 자주 사용되는 통계 방법 특히 데이터 과학에 적용된 것처럼 데이터를 요약하고 분석하는 데 사용됩니다 그리고 거기에 기계 학습, ML, 이것은 데이터에서 클러스터를 찾는 방법 모음입니다

흥미로운 결과에 대한 범주 또는 점수를 예측할 수 있습니다 그리고이 5 가지 일들조차도, 그럼에도 불구하고 프레젠테이션은 너무 기술적이지 않고, 기본적으로 여전히 친숙합니다 정말, 그것이 그 길입니다 이것이 개요 개요입니다 요약하면 : 우리는 데이터 과학이 기술을 포함한다는 것을 기억해야하지만, 데이터 과학은 기술보다 큽니다

그것은 그 절차 이상의 것입니다 무엇보다도 중요한 것은 데이터 과학에 중요합니다 여전히 단순히 데이터를 통찰하는 수단 일뿐입니다 데이터 과학을 논의하는 첫 번째 단계 방법은 소싱의 방법을 보거나 데이터 과학에 사용되는 데이터를 가져 오는 것입니다 당신은 이것을 분석에 들어가는 원료를 얻는 것으로 생각할 수 있습니다

이제, 당신은 데이터 과학에서 이와 관련하여 몇 가지 다른 선택 사항이 있습니다 기존 데이터를 사용할 수 있습니다 데이터, 당신은 데이터 API라는 것을 사용할 수 있습니다 웹 데이터를 긁거나 데이터를 만들 수 있습니다 우리는 비 기술적 인 방식으로 각각의 것에 대해 간단히 이야기 할 것입니다

지금 당장은, 기존 데이터에 대해 이야기하겠습니다 이것은 이미 손에 들고있는 데이터입니다 사내 데이터 일 수 있습니다 따라서 회사에서 일하면 회사 기록이 될 수 있습니다 또는 공개 된 데이터가있을 수 있습니다

예를 들어, 많은 정부와 많은 과학 단체 대중에게 자신의 데이터를 제공하십시오 그리고 제 3 자 데이터도 있습니다 이 일반적으로 공급 업체에서 구입 한 데이터이지만 존재하지만 아주 쉽게 연결할 수 있습니다 그것에서 그리고 간다 API를 사용할 수도 있습니다 이제는 Application Programming Interface의 약자입니다

이것은 다양한 컴퓨터 응용 프로그램이 직접 통신 할 수있는 기능입니다 서로 서로 함께 그것은 당신의 컴퓨터 프로그램을위한 전화와 같습니다 가장 일반적인 방법입니다 웹 데이터를 가져 오는 것, 그리고 아름다운 점은 데이터를 가져올 수 있다는 것입니다

데이터를 분석하는 데 사용하는 프로그램이나 응용 프로그램에 직접 액세스 할 수 있습니다 다음은 데이터 스크래핑 여기가 웹상의 데이터를 사용하고자하는 곳이지만, 웹상에있는 데이터는 사용하지 않습니다 기존 API를 보유하고 있어야합니다 이것이 의미하는 것은 대개 HTML 웹 테이블에있는 데이터입니다

페이지, 어쩌면 PDF 그리고 특수 응용 프로그램을 사용하여이 작업을 수행 할 수 있습니다 데이터 스크래핑이나 R이나 파이썬 같은 프로그래밍 언어로 할 수 있으며 데이터 스크래핑을 수행하는 코드 또는 다른 옵션은 데이터를 만드는 것입니다 그리고 이것으로 정확하게 얻을 수 있습니다

당신이 필요로하는 것; 당신은 매우 구체적 일 수 있고 필요한 것을 얻을 수 있습니다 너는 뭔가 할 수있어 인터뷰, 또는 설문 조사를하거나 실험을 할 수 있습니다 아주 많습니다 접근 방법은 대부분 품질을 수집하는 방법에 대한 전문 교육이 필요합니다 데이터

그리고 실제로 기억하는 것이 중요합니다 왜냐하면 어떤 방법을 사용해도 새로운 데이터를 얻거나 만들 때, 당신이 들었을지도 모르는이 작은 경구를 기억해야합니다 컴퓨터 과학에서 그것은 GIGO의 이름으로갑니다 : 그것은 실제로 "쓰레기" In, Garbage Out "으로 표시됩니다 이는 시스템에 공급할 잘못된 데이터가있는 경우, 당신은 보람있는 것을 얻지 못할 것이고, 그것으로부터의 어떤 진짜 통찰력도 얻지 못할 것입니다

따라서, 측정 및 의미에 대한 측정법이나 방법에주의를 기울이는 것이 중요합니다 그들이 당신에게 말하는 것은 무엇입니까? 당신이 이것을 할 수있는 몇 가지 방법이 있습니다 예를 들어 비즈니스 지표에 대해 이야기하고, 핵심 성과 지표 (KPI)에 대해 이야기 할 수 있습니다 또한 비즈니스 환경에서 사용됩니다 또는 SMART 목표는 목표를 설명하는 방법입니다

실용적이고시의 적절합니다 또한 측정의 의미에서 분류에 대해서도 이야기 할 수 있습니다 정확성 그리고 나중의 영화에서 좀 더 자세하게 각각에 대해 논의 할 것입니다 하지만 지금 당장은 데이터를 소싱하는 것이 중요하다고 말할 수 있습니다

귀하의 분석을위한 원료를 얻으십시오 좋은 점은 여러 가지 가능한 방법이 있다는 것입니다 데이터 과학을 위해 데이터를 얻는 데 사용할 수있는 여러 가지 방법 그러나 당신이 무엇을 하든지, 데이터의 품질과 의미를 확인하는 것이 중요합니다 프로젝트에서 통찰력을 얻을 수 있습니다

우리가 데이터 과학에서 이야기해야 할 다음 단계 메소드는 코딩이며, 여러분에게 매우 간단한 비 기술적 인 개요를 제공 할 것입니다 데이터 과학에서 코딩 여기 아이디어는 당신이 거기에 들어가서 당신이 정글의 왕 / 귀하의 도메인 주인에게 가서 필요할 때 데이터를 점프하게하십시오 뛰어 내리라 이제 우리가 언제 데이터 과학 벤 다이어그램에 관해 얘기했는지 기억한다면 시작, 코딩은 왼쪽 상단에 있습니다

그리고 우리는 종종 사람들의 일종에 관해 생각하는 반면 (매우 빈번한) 코드 행을 타이핑 할 때, 우리가 이야기 할 때를 기억하는 것이 더 중요합니다 코딩 (또는 단지 일반적인 컴퓨터)에 관해서, 우리가 실제로 여기서 이야기하는 것은 프로 시저를 수행하는 데 필요한 방식으로 데이터를 조작 할 수있는 기술 당신은 당신이 당신의 자료에서 원하는 통찰력을 얻을 필요가있다 자, 아주 세 가지가 있습니다 여기 datalab에 대해 논의 할 일반 카테고리 첫 번째는 앱입니다 이들 데이터 작업을위한 전문화 된 응용 프로그램 또는 프로그램입니다

두 번째는 데이터입니다 또는 특히 데이터 형식 웹 데이터를위한 특별한 형식이 있습니다 잠시 그런 다음 코드를 작성하십시오 프로그래밍 언어를 통해 모든 것을 제어 할 수 있습니다

컴퓨터가하는 일과 데이터와 어떻게 상호 작용하는지 각각을 살펴 보겠습니다 아주 짧게 앱 측면에서는 Excel 또는 Google 스프레드 시트와 같은 스프레드 시트가 있습니다 이것들은 아마 세계의 대다수의 기본적인 데이터 도구입니다

전문화되어있다 데이터 시각화를위한 Tableau와 같은 애플리케이션 또는 SPSS는 매우 일반적인 통계 패키지입니다 사회 과학 및 기업에서, 그리고 내가 좋아하는 JASP 중 하나 인 SPSS의 무료 오픈 소스 아날로그 실제로 사용하기가 훨씬 쉽고 복제하기가 쉽습니다 연구하다 그리고, 다른 선택의 톤이 있습니다

이제 웹 데이터면에서 HTML, XML, JSON 및 기타 형식에 익숙해지면 도움이됩니다 웹에 데이터를 캡슐화하는 데 사용됩니다 데이터를 얻을 때 상호 작용하기 위해 프로그래밍해야합니다 그리고 나서 실제 코딩 언어 R이 파이썬과 함께 가장 일반적 일 것입니다

범용 언어를 사용하지만 데이터 사용에 적합합니다 구조화 된 쿼리 인 SQL이 있습니다 데이터베이스 용 언어 및 C, C ++ 및 Java와 같은 매우 기본적인 언어가 더 많이 사용됩니다 데이터 과학의 백 엔드에서 그리고 가장 일반적인 커맨드 라인 인 Bash가 있습니다 인터페이스 및 정규식을 지원합니다 그리고 우리는이 모든 것을 다른 과목에서 말할 것입니다

여기 datalab에서 하지만 기억하십시오 도구는 도구 일뿐입니다 그것들은 데이터 과학 과정 그것들은 결국 수단이며, 목표는 통찰력입니다

당신은 당신이 가고자하는 것을 알 필요가있다 당신은 그 특정한 목표에 도달합니다 그것이 가장 중요한 것입니다 그래서, 요약하면 다음과 같습니다 몇 가지 : 번호 하나, 도구를 현명하게 사용하십시오

귀하의 질문은 프로세스가 아니라 도구 자체 또한 몇 가지 도구는 일반적으로 충분히 Excel과 R로 엄청난 노력을 할 수 있습니다 그리고 가장 중요한 것은 목표에 집중하고 도구와 데이터를 골라 목표에 맞게 선택하십시오 귀하의 데이터에서 가장 유용한 통찰력을 얻을 수 있습니다

데이터 토론에 대한 다음 단계 과학 방법은 수학이며, 수학에 대한 간단한 개요를 제공 할 것입니다 데이터 과학에 관여합니다 이제 기억해야 할 중요한 것은 수학이 실제로 형성된다는 것입니다 우리가 할 일의 기초 Data Science Venn Diagram으로 돌아 가면, 우리는 오른쪽 구석에 통계를 올렸지 만, 실제로 그것은 수학과 통계, 또는 정량입니다

일반적으로 능력이지만, 우리는 여기서 수학 부분에 집중할 것입니다 그리고 아마 가장 중요한 질문은 수학이 당신이해야 할 일을하기에 충분한 지요? 또는 다른 것을 넣으십시오 왜 컴퓨터를 가지고 있기 때문에 왜 수학이 필요합니까? 글쎄, 나 당신은 단지 컴퓨터에 의존하고 싶지 않은 세 가지 이유를 생각할 수 있지만 도움이됩니다 몇 가지 건전한 수학적 이해가 필요합니다 여기 있습니다 : 1 번, 당신은 알아야합니다

사용 절차 및 이유 그래서 당신은 당신의 질문을 가지고 있습니다 당신은 당신의 데이터를 가지고 있습니다 정보에 입각 한 선택을하기에 충분한 이해가 필요합니다 그것은 끔찍한 것이 아닙니다

어려운 둘째, 일이 제대로되지 않을 때 무엇을해야하는지 알 필요가 있습니다 때때로 당신은 불가능한 결과를 얻습니다 나는 당신이 부정적인 조정 된 R2를 얻을 수있는 통계를 알고 있습니다 그거야

일어날 일이 아니야 그리고 계산에 들어가는 수학을 아는 것이 좋습니다 그래서 당신은 명백하게 불가능한 것이 어떻게 작용할 수 있는지를 이해할 수 있습니다 또는하려고하는 것입니다 요인 분석 또는 주요 구성 요소를 수행하면 전환하지 않는 순환 게재가 발생합니다

그것은 일어나고있는 알고리즘에 대해 무엇이 이해되는지, 그리고 왜 그렇게되지는 않는지 이해하는 것을 돕습니다 그 상황에서 일하십시오 그리고 3 번, 흥미롭게도 몇 가지 절차, 몇 가지 수학 컴퓨터를 발사하는 것보다 손으로하는 것이 쉽고 빠릅니다 그리고 내가 너에게 보여줄거야 나중에 동영상에서 몇 가지 예가 있습니다

자, 근본적으로 거기 여기에는 유례가 없습니다 수학은 화학과 같은 데이터 과학입니다 요리에 kinesiology는 춤을 추며 문법은 글쓰기입니다 여기 아이디어는 당신은 어떤 화학 지식도없이 훌륭한 요리사가 될 수 있지만, 어떤 화학 지식을 안다면 도움이 될 것입니다 너는 운동 운동을 모른다해도 훌륭한 댄서가 될 수 있지만, 도움을 청합니다

그리고 당신은 명백한 지식이 없어도 좋은 작가가 될 수 있습니다 문법의, 그러나 그것은 큰 차이를 만들 예정이다 데이터의 경우에도 마찬가지입니다 과학; 당신은 기본 정보가 있다면 더 잘 할 것입니다 그래서, 다음 질문은 데이터 과학에 어떤 종류의 수학이 필요합니까? 글쎄, 그것에 대한 몇 가지 대답

숫자 1은 대수학입니다 당신은 몇 가지 기본 대수학이 필요합니다 그건, 기본적으로 간단한 것들 선형 또는 행렬 대수를 사용해야 할 수 있습니다 많은 계산의 기초입니다

또한 선형 방정식 시스템을 사용할 수도 있습니다 한 번에 여러 방정식을 풀기 위해 노력하고 있습니다 그것은 까다로운 일입니다 이론이지만, 이것은 때로는 손으로하는 것이 실제로 쉬운 일 중 하나입니다 이제 더 많은 수학이 있습니다

당신은 미적분을 얻을 수 있습니다 당신은 큰 O를 얻을 수 있습니다 얼마나 빨리 작동하는지와 관련된 함수의 순서 확률 이론 중요 할 수 있고 베이 즈 (Bayes)의 정리는 구치부 (posterior)라고 불리는 것을 얻는 방법입니다 확률은 또한 다음과 같은 몇 가지 근본적인 질문에 답하기위한 유용한 도구가 될 수 있습니다 데이터 과학

그래서 합하면 : 약간의 수학은 계획 할 때 정보에 입각 한 선택을하도록 도울 수 있습니다 귀하의 분석 매우 중요한데, 문제를 발견하고 해결할 때 도움을 줄 수 있습니다 일이 제대로되지 않습니다 후드를 보면서 차이를 만들어내는 능력입니다

그리고 진실하게, 선형 방정식의 시스템과 같은 몇 가지 수학적 절차가 손으로도, 때로는 컴퓨터로 할 수있는 것보다 더 빨리 할 수 ​​있습니다 그래서, 당신은 저장할 수 있습니다 자신에게 약간의 시간과 노력과 통찰력의 목표를 향해 더 빨리 나아가십시오 이제 데이터 과학은 약간의 통계없이 데이터 과학 및 방법이 될 수 없습니다 그래서 저는 데이터 과학에서 일들이 어떻게 작동하는지에 대한 간략한 통계 개요를 드리겠습니다

이제는 통계를 혼돈 속에서 질서를 찾고, 패턴을 찾고자하는 시도라고 생각할 수 있습니다 압도적 인 혼란 속에서 숲과 나무를 보려고하는 것과 같습니다 이제하자 우리의 작은 벤 다이어그램으로 돌아가십시오

우리는 최근에 수학 및 통계를 맨 위에 올렸습니다 모서리 우리는 특히 통계에 관해서 이야기 할 것입니다 당신이 시도하고있는 것 여기에서 할; 한 가지는 데이터를 탐색하는 것입니다 탐색 그래픽을 사용할 수 있습니다

우리는 시각적 인 사람들이며 일반적으로 사물을 보는 것이 가장 쉽습니다 탐색 통계를 얻을 수 있습니다 데이터의 수치 탐구 그리고 당신은 설명적인 통계를 가질 수 있습니다 대부분의 사람들이 통계 수업을 들었을 때 이야기했던 것들 대학 (그들이 그랬다면) 다음으로, 추론이 있습니다

여기 연기가 나왔는데 왜냐하면 너 때문에 연기의 패턴을보고 바람과 공기의 움직임을 추론 할 수 있습니다 여기서 아이디어는 샘플에서 정보를 가져 와서 무언가를 추측하려는 것입니다 인구에 대해서 한 출처에서 다른 출처로 이동하려고합니다 일반적인 버전 이것은 가설 테스트입니다

또 다른 일반적인 버전은 추측이며 때때로 신뢰라고도합니다 간격 다른 방법으로도이 작업을 수행 할 수 있지만이 모든 작업을 통해 데이터 큰 결론을 내리는 데 도움이됩니다 통계에 대한 흥미로운 점은 당신은 몇몇 세부 사항들에 관심을 기울여야하고 단지 것들을 정리해야 할 것입니다 그래서

예를 들어, 기능 선택과 같은 작업을 수행하면 피킹됩니다 변수가 포함되거나 조합되어야하며 문제가 발생할 수 있습니다 잦은 문제이며 이후 비디오에서 그 중 일부를 다룰 예정입니다 또한 확인의 문제 통계 모델을 만들 때 실제로 통계가 정확한지 확인해야합니다

바라건대, 당신은 홀 아웃 샘플을 가지고 그것을 할 수있는 충분한 데이터를 가지고 있습니다 연구를 복제 할 수 있습니다 그런 다음 사용하는 견적가를 선택할 수 있습니다 어떻게 지내? 실제로 모델에서 계수 또는 조합을 가져옵니다 그런 다음 평가 방법이 있습니다

모델이 데이터에 얼마나 잘 맞는지 이 모든 것들이 제가 간단히 언급 할 것입니다 우리가 더 큰 길이의 통계 분석에 관해 말할 때 자, 나는 언급하고 싶다 특히 여기서 한 가지는, 나는 이것을 "트롤을 조심하십시오"라고 부릅니다

거기서 누가 너에게 말할 것이다 만약 네가 네가 말한대로 정확히 일을하지 않으면, 분석이 의미가 없다는 것과 데이터가 쓰레기이며 모든 시간을 낭비했다는 것입니다 있잖아? 그들은 트롤입니다 그래서, 여기의 생각은 그 말을 듣지 않는 것입니다 당신은 할 수 있습니다 자신에 대한 충분한 정보에 입각 한 결정으로 계속 진행하고 여전히 분석을 수행합니다

유능한 아마 이것에 대해 생각할 가장 중요한 것들 중 하나는이 멋진 것입니다 매우 유명한 통계 학자의 말을 인용하면 "모든 모델 또는 모든 통계 모델 잘못이지만 일부는 유용합니다 "그래서 문제는 당신이 기술적으로 맞아요, 아니면 일종의 지적 순결을 가졌지 만 유용합니다 그건 그렇고, 조지 박스에서 나온 것입니다

그리고 저는 그것을 기본적으로 생각하고 싶습니다 이것은 : 당신의 깃발을 물결 치고, 당신 자신의 "do it yourself"깃발을 흔들며, 무엇에 자부심을 갖습니다 그것을 비난하는 사람들이있을 때에도 성취 할 수 있습니다 어서, 당신은 무언가를하고 있고, 계속하고 그것을합니다 그래서, 합계 : 통계를 통해 탐색 할 수 있습니다

귀하의 데이터를 설명하십시오 인구에 관한 것들을 추론 할 수 있습니다 많이있다 가능한 선택, 많은 절차 그러나 당신이 무엇을 하든지 목표는 유용합니다 통찰력

목표를 계속 지키면 의미 있고 유용한 것을 발견하게 될 것입니다 귀하의 데이터에 귀하의 연구 및 프로젝트에 도움이됩니다 우리의 데이터 과학을 끝내자 방법 개요는 기계 학습에 대한 간략한 개요를 제공합니다 이제, 나는 인정해야한다

"기계 학습"이라는 말을 할 때 사람들은 "기계 학습"과 같은 생각을하기 시작합니다 로봇 대 군주가 세계를 점령 할 것 "이라고 말했다 대신, 한 번 더 벤 다이어그램으로 돌아가서 그 사이의 꼭대기에있는 교차점에서 코딩 및 통계는 기계 학습이거나 일반적으로 ML이라고 불리는 것입니다 목표 기계 학습은 데이터 공간에서 작업하고 작업하는 것입니다 예를 들어, 데이터가 아주 많습니다 (여기에 수많은 책이 있습니다)

그런 다음 차원을 줄일 수 있습니다 즉, 매우 크고 흩어져있는 데이터 집합을 가져와 가장 중요한 부분을 찾으려고합니다 그 데이터의 그런 다음이 방법을 사용하여 데이터 내의 클러스터를 찾을 수 있습니다 ~처럼 같은

k-means와 같은 방법을 사용할 수 있습니다 이상이나 비정상적인 것을 찾을 수도 있습니다 데이터 공간에 나타나는 사례 또는 다시 카테고리로 돌아 가면 이야기를 나눴습니다 좋아요

로지스틱 회귀 (logistic regression) 또는 k- 가까운 이웃과 같은 것을 사용할 수 있습니다 KNN Naive Bayes를 사용하여 분류를하거나 Decision Trees 또는 SVM을 사용할 수 있습니다 벡터 기계 또는 인공 신경망 그 중 누구라도 패턴을 찾는 데 도움이됩니다

그리고 데이터를 집계하면 서로 비슷한 사례를 얻을 수 있습니다 이 집단들에 관해 결론을 내리는 데 필요한 응집력 또한, 주요 요소 기계 학습의 예측은 예측입니다 길을 가르키 려합니다 그만큼 가장 일반적인 방법은 여기에 있습니다

가장 기본적인 것은 선형 회귀, 다중 회귀입니다 또한 푸 아송 회귀 (Poisson regression)가 있으며, 카운트 또는 빈도 데이터를 모델링하는 데 사용됩니다 Ensemble 모델에 문제가 있습니다 여기서 여러 모델을 만들고 그것들과 각각의 예측은 그것들을 합쳐 더 신뢰할 수있게합니다 예측

이제 각각의 내용에 대해 나중의 과정에서 좀 더 자세하게 설명하겠습니다 하지만 지금 당장은 제가 여러분에게 이런 것들이 있다는 것을 알기를 바랍니다 우리가 기계 학습을 말할 때 의미하는 것 그래서, 요약하면 : 기계 학습은 사례를 범주화하고 결과에 대한 점수를 예측할 수 있습니다 그리고 선택의 여지가 많습니다

선택 및 절차를 이용할 수 있습니다 그러나 다시 통계를 통해 말했듯이 나는 또한 이것 이후에도 여러 번 말하십시오 아무리 목표가 없다면 "나는 인공 신경 네트워크 또는 SVM을 수행하십시오 "목표는 데이터 기계 학습은 도구이며이를 사용하면 도움을받을 수 있습니다

당신이 필요로하는 통찰력 지난 몇 편의 비디오에서 나는 데이터에서의 역할에 대해 이야기했다 기술 사물의 과학 반면에, 의사 소통은 연습에 필수적이며, 내가 거기에서 이야기하고 싶은 첫 번째 것은 해석 가능성입니다 여기 아이디어는 데이터 경로를 통해 사람들을 이끌 수 있기를 원합니다

데이터 중심으로 말하고 싶습니다 이는 데이터 과학을 통해 무엇을하고 있는지에 대한 전체 목표입니다 자, 다른 이것을 생각하는 방법은 : 분석을 할 때, 당신이하려고하는 것은 가치를 해결하십시오 방정식을 만들고있어 당신은 데이터를 가지고, 당신은 가치

문제는 이것입니다 : 많은 사람들이 분석에 매달 리지 만, 그들은 분석은 가치와 같은 것이 아니라는 것을 기억하십시오 대신, 나는 이것을 생각하고 싶어한다 방법 : 분석 시간 이야기는 가치와 같습니다 이제는 곱셈 적입니다 첨가물이 아니기 때문에, 그 결과는 당신이 돌아갈 때, 분석 시간 이야기 값과 같습니다

글쎄, 만약 당신이 0의 가치를 가지려고한다면, 당신은 언제나 0이 0이라는 것을 기억합니다 그래서, 그 대신에 이것으로 돌아가 봅시다 우리가 진정으로 원하는 것은 우리가 이야기를 극대화하여 최대화 할 수 있기를 원한다는 것입니다 우리의 분석 결과 값 여기에서도 최대 값이 전체 목표입니다

분석, 도구, 기술은 그 목표를 달성하기위한 단순한 방법입니다 그럼,하자 목표에 대해 이야기하십시오 예를 들어 분석은 목표 지향적입니다 성취하려고 노력 중이다

구체적인 내용, 이야기 또는 서사 또는 설명 귀하의 프로젝트가 그 목표와 일치해야합니다 고객이있는 경우 그들이 당신에게 대답하기를 원하는 특정 질문, 그러면 당신은 전문적인 책임이 있습니다 그 질문에 명확하고 모호하지 않게 답할 수 있도록 귀하가 예 또는 아니오를 말했는지 알기 위해 그들은 네가 왜 그렇다고 말했는지 안다 자, 여기서 문제의 일부는 클라이언트의 사실입니다 너는 아니며 네가하는 일을 보지 못한다

그리고 여기에 나와있는 것처럼, 단순히 얼굴을 가리고 있습니다 사물을 사라지게하지 않습니다 당신은 약간의 심리적 추상화에 대해 걱정해야합니다 당신은 자기 중심주의에 대해 걱정해야합니다 그리고 나는 헛되이 말하는 것이 아니라, 나는 말하고있다

당신이 다른 사람들이 당신이 알고있는 것을보고 이해하고 이해한다고 생각한다는 생각에 대해서 그건 사실이 아니야; 그렇지 않으면 그들은 처음에 당신을 고용하지 않았을 것입니다 그래서 당신은 고객과 함께 일하고 그들이 이해할 수있는 용어로 표현해야합니다 당신은 그것을하기 위해 당신 자신의 중심에서 벗어나야 할 것입니다 또한, 잘못된 합의의 아이디어; "모두들 잘 압니다

"그리고 다시 한번, 그건 사실이 아니야 그렇지 않으면 그들은 너를 고용하지 않았을거야 당신은 그것을 이해해야합니다 그들은 다른 범위의 경험과 해석으로 다른 배경에서 올 것입니다 당신은 그것을 보상해야 할 것입니다

재미있는 작은 것은 고정에 대한 아이디어입니다 누군가에게 초기 인상을 주면, 그것을 앵커로 사용하고 그것으로부터 멀리 조정하십시오 따라서 머리를 뒤집어 쓰려고하면 당신이 절실히 필요로하지 않는 한, 처음에는 틀린 인상을 주려고합니다 그러나 가장 중요한 것은, 고객과 고객 사이의 격차를 줄이려면 명확성과 설명이 필요합니다 각 단계에서 너 자신

대답에 대해서도 생각해 볼 수 있습니다 설명 할 때 클라이언트에게 프로젝트를 시작하면 매우 간단한 절차에서 시작할 수 있습니다 당신이 대답하고있는 질문 그 질문에 대한 답을주십시오 필요에 따라 자격을 부여하십시오

그런 다음, 위에서 아래로 순서대로 진행하십시오 그래서 그것을 만들려고합니다 가능한 한 분명하게 말하고있는 것, 대답은 무엇인지, 그리고 따르다 자, 프로세스를 논의하는 관점에서 어떻게이 모든 작업을 수행 했습니까? 대부분의 시간 아마 그들이 상관하지 않는 경우 일 것입니다 그들은 단지 대답이 무엇인지 알고 싶습니다

그리고 그걸 얻기 위해 당신이 좋은 방법을 사용했다고 그래서, 프로세스 또는 기술 세부 사항, 절대적으로 필요한 경우에만 그것은 명심해야 할 것이 있습니다 과정 여기에 그 분석을 기억하는 것입니다 그것은 어떤 것을 깨뜨리는 것을 의미합니다

이것은, 그런데, 그것의 개별 구성 요소로 깨진 기계 타자기입니다 분석은 데이터를 분석하는 것이 단순화의 연습입니다 너 데려가고있어 전반적인 복잡성, 데이터의 압도적 인 종류, 그리고 당신은 그것을 내려 끓고 있습니다 이해가 가능하고 고객의 요구에 부합하는 패턴을 찾습니다

자, 가자 우리 친구 인 앨버트 아인슈타인 (Albert Einstein)의 멋진 견적입니다 그는 이렇게 말했습니다 "모든 것이 만들어 져야합니다 가능한 한 간단하지만 단순하지는 않습니다

"귀하의 분석을 제시하는 것은 사실입니다 또는, 당신이 가고 싶다면 건축가이자 디자이너 인 Ludwig Mies van der Rohe를 만나러 갈 것입니다 더 많이있다 "실제로 Robert Browning이 원래 말하지만, Mies van der Rohe는 그것을 대중화했습니다 또는, 당신이 오는 원리를 다른 방식으로 쓰고 싶다면 나의 분야, 나는 실제로 심리학 연구원이다; 그들은 최소한으로 충분하다고 이야기합니다

적절하게 질문에 대답하기에 충분합니다 상거래를하는 경우 최소한 실행 가능한 제품이라면 여기에서 분석 내에서 같은 생각입니다 가능한 최소한의 분석입니다 여기에 몇 가지 팁이 있습니다 프레젠테이션을 할 때, 차트가 많고, 텍스트가 적습니다

그런 다음 차트를 단순화하십시오 거기에있을 필요가없는 모든 것을 제거하십시오 일반적으로, 데이터를 읽는 것이 어렵 기 때문에 데이터 테이블을 피하려고합니다 그리고 한 번 더 왜냐하면 나는 그것을 강조하기를 원하기 때문이다 차트, 표는 일반적으로 메시지

그래서 여기에 한 가지 예를 들어 보겠습니다 매우 유명한 데이터 세트를 제공 할 것입니다 버클리 입학 이제, 이것들은 Berkeley의 계단이 아니지만, 아이디어를 제공합니다 멀리 떨어져있는 뭔가에 빠지려고 노력하는 것

여기에 데이터가 있습니다 이것은 1973 년 대학원 입학 이래 40 년이 넘었습니다 그 생각은 남성과 여성 모두 캘리포니아 버클리 대학 (University of California Berkeley) 대학원에 지원했습니다 그리고 우리가 발견 한 것은 44 %의 입학 허가를받은 사람들이 녹색 부분 여성들 중 35 %만이 입양을 허가 받았다

그래서, 언뜻보기에는 이것은 편견이며 실제로 소송을 일으켰습니다 발행물 그래서 Berkeley가 시도한 바는 "어떤 프로그램이 책임이 있는지 이 편견 때문에? "그들은 매우 흥미로운 결과를 얻었다 응용 프로그램을 중단하면 프로그램에 의한 다운 (그리고 여기서 우리는 A에서 F로 전화하고있다), 여섯 가지 프로그램 뭐 당신은 실제로, 왼쪽 여성 지원자들에있는이 남성 지원자들 각각에서 발견됩니다

오른쪽에 있습니다 프로그램 A를 보면 여자들은 실제로 더 높은 비율로 받아 들여졌고, B에 대해서도 마찬가지이며, D에 대해서도 마찬가지이며, F에 대해서도 마찬가지이다 그리고 그래서 이것은 매우 호기심이 많은 답변이며 설명이 필요한 것입니다 이제 통계에서 이것은 심슨의 역설로 알려진 것입니다 하지만 여기있다

역설 : 부서 수준에서 편견은 무시할 수 있습니다 사실 우리가 보았 듯이 4 개의 부서에서 여성에게 유리하게 편견이있었습니다 그리고 문제는 여성들은보다 선별적인 프로그램, 수용률이 낮은 프로그램에 지원했다 지금, 어떤 사람들은 여기서 멈추고 따라서 "아무 일도 일어나지 않고 불평 할 것도 없습니다 "그러나 당신도 알다시피, 그것은 아직 조금 일찍 이야기를 끝내고 있습니다

다른 것이있다 질문 할 수있는 질문 및 데이터 중심의 이야기를 제작할 때 이것은 당신이 할 것입니다 그래서, 예를 들어, "왜 프로그램이 다양합니까? 전반적인 수업 규모? 합격률은 프로그램마다 다른 이유는 무엇입니까? 왜 남녀가 다른 프로그램에 적용됩니까? "그리고 같은 것을 보길 원할 것입니다 각 프로그램에 대한 입학 기준, 홍보 전략, 광고 방법 그들 자신을 학생들에게 학생들은 이전의 교육의 종류를보고 싶을 것입니다

프로그램에 참여 했으므로 각 프로그램의 자금 수준을 실제로보고 싶습니다 그리고 정말, 당신은 하나의 대답을 얻었습니다 적어도 더 많은 질문들, 아마도 더 많은 대답들, 그리고 더 많은 질문이 있으시면 포괄적 인 개요를 제공하기에 충분할 것입니다 및 솔루션을 고객에게 제공합니다 요컨대 이야기를 해봅시다

이야기는 데이터 분석에 가치를 부여합니다 그리고 이야기를 말할 때, 당신은 당신이 당신의 고객의 ' 명확하고 모호하지 않은 방식으로 전체적인 원칙은 최소한으로 충분합니다 요점을 짚으십시오 필요한 것을 말하고, 그렇지 않으면 간결하게 메시지를 분명하게 말하십시오 데이터 과학 및 의사 소통에 관한 다음 단계 실행 가능한 통찰력, 또는 달성을 위해 생산적으로 사용될 수있는 정보에 대해 이야기하는 것입니다

어떤 것 이제는 기묘한 segue를 제공하기 위해 게임 컨트롤러를 살펴 봅니다 꽤 좋은 물건일지도 모르지만, 좋은 물건일지도 모르지만, 기억하십시오 : 게임 컨트롤러가 있습니다 뭔가를 할 수 있습니다 그것들은 당신이 게임을하고 가능한 한 효과적으로 할 수 있도록 돕기 위해 존재합니다

그들은 기능을 가지고 있으며, 목적을 가지고 있습니다 같은 방식으로 데이터를 처리합니다 자, 그건 내가 좋아하는 역사적 인물 중 하나에 대한 의역 윌리엄 제임스, 아버지 미국 심리학, 실용주의는 철학이다 그리고 그는이 멋진 견적을 가지고 있습니다

그는 "내 생각은 처음부터 끝까지, 항상 내 일을 위해서이다"라고 말했습니다 아이디어는 분석에 적용됩니다 당신의 분석과 당신의 데이터는 당신을 위해서입니다 따라서, 어떻게 진행해야하는지에 대한 구체적인 통찰력을 얻으려고합니다

너 뭐야? 피하고 싶지는 나의 다른 좋아하는 문화 영웅 중 하나에서 이것의 반대입니다, 유명한 양키스 포수 요기 베라 (Yogi Berra)는 "우리는 길을 잃었지만 우리는 잘하고있다 시간 "이다 여기에서의 생각은 광란의 활동이 방향의 결여를 보충하지 못한다는 것이다 당신 자신이 무엇을하고 있는지 이해해야 특정 목표에 도달 할 수 있습니다 그리고 당신의 분석 그렇게하기로되어 있습니다

따라서 분석을 할 때, 그 길 기억하십시오, 왜 프로젝트가 실시 되었습니까? 목표는 보통 어떤 종류의 행동, 당신의 클라이언트를위한 어떤 목표를 도달하십시오 그리고 분석이 가이드 할 수 있어야합니다 그 행동을 정보에 입각 한 방식으로 당신이하고 싶은 한 가지는, 당신이 할 수 있기를 원하는 것입니다 고객에게 다음 단계를 제공하십시오

다음 단계를 제공하십시오 그들이해야 할 일을 말해 준다 지금 이러한 권장 사항을 데이터와 함께 정당화 할 수 있기를 원합니다 분석

되도록 구체적으로 구체적으로 그들이해야 할 일을 말해주십시오 하다 고객이 할 수있는 것이고, 자신의 능력 범위 내에 있다는 것입니다 그리고 그 각 단계는 이전 단계에서 작성해야합니다 이제, 말한 바에는 정말로 근본적인 종류의 철학적 문제가 여기 있습니다 이것이 바로 상관 관계의 차이입니다

인과 관계 기본적으로이 방법은 다음과 같습니다 너 알지 이것은 이것과 관련이있다 하지만 당신의 고객은 단순히 관련; 그들은 무엇이 무언가를 일으키는 지 알고 싶어합니다

왜냐하면 그들이하려고한다면 뭔가, 그것은 특정한 결과를 산출하기 위해 개입 된 것입니다 그래서, 정말로, 당신은 상관 관계로부터 어떻게 얻습니까? 그것은 당신이 데이터에서, 인과 관계로, 당신의 고객이 원하는 것은 무엇입니까? 글쎄, 몇 가지 방법이있어 하나는 실험적입니다 연구; 이것들은 무작위적이고 통제 된 시도입니다 이제는 이론적으로 가장 단순합니다

인과 관계로가는 길이지만 현실 세계에서는 정말 힘들 수 있습니다 준 실험이 있는데, 이것들은 메소드, 메소드의 전체 콜렉션입니다 그들은 무작위 화되지 않은 데이터를 사용하며, 일반적으로 관측 자료는 인과 관계 추론의 추정치를 얻는 특별한 방법으로 조정된다 또는 이론과 경험이 있습니다 그리고 이것은 연구 기반의 이론과 도메인 특유의 것입니다

경험 그리고 이것이 고객의 정보에 실제로 의존하게됩니다 정보를 해석하는 데 도움을 줄 수 있습니다 특히 도메인 전문 지식이 더 큰 경우 네가하는 것보다 생각할 또 다른 사항은 데이터에 영향을 미치는 사회적 요소입니다

이제 데이터 과학 Venn Diagram을 기억합니다 우리는 많은 시간을 보았습니다 그것은 가지고있다 이 세 가지 요소 일부는이 벤 다이어그램에 네 번째 원을 추가 할 것을 제안했으며 우리는 그걸 사회의 이해가 중요하고 중요하다고 강조합니다 정말로, 유효한 데이터 과학

자, 나는 그 생각을 좋아한다 그리고 나는 그것이 중요하다고 생각한다 어떻게 일들이 전개 될지 이해할 수 있습니다 몇 가지 종류의 사회적 이해가 있습니다 당신은 당신의 고객의 사명을 알고 싶습니다

당신은 당신의 권고 사항을 확실히하고 싶습니다 고객의 사명과 일치합니다 또한 권장 사항이 일관되게 유지됩니다 고객의 정체성과 함께; 뿐만 아니라 "이것은 우리가하는 일입니다"하지만 "이것은 정말로 우리는 경쟁 환경의 일종 인 비즈니스 컨텍스트를 인식하고 있어야합니다

그리고 그들이 직면하고있는 규제 환경 사회적 맥락뿐만 아니라 이는 조직 외부에있을 수 있지만 조직 내에서 더욱 자주 발생합니다 귀하의 권장 사항은 고객 조직 내의 관계에 영향을 미칩니다 그리고 너 당신이 그것을 할 수있는 한 많이 알기 위해 노력할 것입니다

그들이 필요로하는 방식으로 실현 될 수 있습니다 요약하자면, 데이터 과학은 목표에 초점을 맞추고 있습니다 고객의 목표에 중점을 둘 때 다음 단계를 구체적으로 제시해야합니다 이는 귀하의 분석에 근거하고 데이터로부터 정당화 될 수 있습니다 그리고 그렇게 할 때주의해야합니다

사회 경제적, 정치적 경제적 맥락이 당신에게 최고의 기회를 제공합니다 정말 당신의 분석에서 유용합니다 데이터 과학 및 시도에서 일할 때 결과를 전달하기 위해 프레젠테이션 그래픽은 매우 유용한 도구가 될 수 있습니다 이 방법으로 생각해보십시오 고객의 이익을 위해 그림을 그리는 중입니다

이제 그래픽 작업을 할 때 몇 가지 다른 목표가있을 수 있습니다 그것은 달려있다 당신이 작업하고있는 그래픽의 종류 탐험의 일반적인 범주가 있습니다 제도법

이들은 당신이 분석가로 사용하는 것들입니다 그리고 탐험적인 그래픽을 위해서, 속도와 응답 성이 필요하므로 매우 간단한 그래픽을 얻을 수 있습니다 이것은 기지 다 R의 히스토그램 그리고 좀 더 정교해질 수 있고 이것은 ggplot2에서 수행됩니다

그리고 당신은 두 개의 다른 히스토그램으로 분해 할 수 있습니다 또는 다른 것으로 만들 수 있습니다 방법을 사용하거나 투명하게 만들거나 작은 배수로 나눌 수 있습니다 그러나 각각의 경우에, 이것은 애널리스트가 데이터를 이해함에 따라 귀하를 위해 수행됩니다 이것들은 빨리, 효과적입니다

이제 그들은 잘 분류되지 않았으며 보통 당신의 통찰력, 그리고 당신은 그 결과로 다른 일을합니다 반면에, 프리젠 테이션 고객의 이익을위한 그래픽, 명확성이 필요하며 내러티브 흐름 이제 각 특성에 대해 간단히 설명하겠습니다 명쾌함 주의 산만 대 그래픽에서 잘못 될 수있는 것들이 있습니다

번호 하나는 색상입니다 색상은 실제로 문제가 될 수 있습니다 또한 3 차원 또는 잘못된 차원은 거의 항상 산만합니다 어떤 사람들에게는 조금 민감 해지는 것은 상호 작용입니다 우리는 인터랙티브 그래픽스를 생각합니다

정말 근사하고 위대한 일이지만, 산만 해지는 위험을 감수해야합니다 상호 작용에 의해 그것과 함께 놀기 시작합니다 가는 것, "우, 나는 여기를 압박한다 그것은 그렇게합니다 "그리고 그것은 메시지에서주의를 산만하게합니다

사실, 그것은 중요 할 수 있습니다 상호 작용하지 않기 그리고 애니메이션도 마찬가지입니다 평평하고 정적 인 그래픽 그들이 더 적은 산만 함을 가지고 있기 때문에 더 유익 할 수 있습니다 내가 줘 보자

당신은 일을하지 않는 방법에 대한 간단한 예입니다 자,이 차트는 제가 만든 차트입니다 나는 그것을 만든 Excel에서, 그리고 내가 본 그래픽 중 일부에서 본 실수를 기반으로했습니다 내가 가르 칠 때 그리고 나는 당신을 보장합니다

여기있는 모든 것을 현실에서 보았을뿐입니다 반드시 모든 것을 한꺼번에 결합해야합니다 조금 더 자세히 살펴 보도록하겠습니다 이 그래픽의 모든 나쁜 그리고 여기서 무슨 일이 일어나는지 봅시다

여기에 규모가 있습니다 8에서 시작하여 28 %로 작아서 작습니다 데이터 범위를 다루지도 않습니다 우리 벽에이 기괴한 그림이 있습니다 우리는 벽에 접근 선이 없다

우리 여기 내려와 교육 수준의 레이블은 대신 알파벳 순서로 표시됩니다 보다 논리적으로 높은 수준의 교육이 필요합니다 그런 다음 원추형으로 표시된 데이터를 얻었습니다 읽고 읽고 비교하기가 어렵고 색깔과 색이 더 나쁘다

텍스처 극단적 인 생각을하고 싶다면,이 정도의 학위는 그렇지 않습니다 심지어 8 %의 바닥 값으로 만들고 고등학교 졸업을위한이 하나는 잘립니다 28 %의 최고 그건 그렇고, 양의 그림이고, 사람들은 이런 종류의 물건을합니다

그리고 그것은 나를 미치게합니다 똑같은 데이터로 더 나은 차트를보고 싶다면 바로 여기에 있습니다 그것은 직선형 막 대형 차트입니다 평평하고 단순합니다 가능한 한 깨끗합니다

그리고 이것은 여러면에서 더 낫습니다 여기에서 가장 효과적인 것은 그것이 분명히 의사 소통한다는 것입니다 저기있다 혼란스럽지 않고 논리적 인 흐름입니다 이것은 훨씬 더 빨리 그 점을 알게 될 것입니다

그리고 저는 그것의 또 다른 예를 드릴 수 있습니다 이전에 대한 급여에 대한 차트가 있습니다 소득 여기에 목록이 있는데, 데이터 과학자가 있습니다 관심을 끌고 싶다면 그것에, 나는 그것의 주위에 원형을 두는 선택권이 있고 나는 그것의 옆에 수를 둘 수있다 그것을 설명하기

이것이 진행 상황을 쉽게 알 수있는 한 가지 방법입니다 우리는 심지어 공상을 얻어야 해 있잖아, 방금 펜과 포스트잇 노트를 꺼내서 술집을 그렸어 평균 수명에 관한 실제 데이터 차트 이것은 또한 이야기를 말해줍니다

시에라 리온에서 무언가 끔찍한 일이 일어났습니다 그러나 이제는 서사를 만드는 것에 대해 이야기 해 봅시다 귀하의 프레 젠 테이션 그래픽 흐름 이렇게하기 위해 나는 몇 가지 차트를 내가 가장 많이 인용 한 학술지, A Third Choice : 경험적 연구의 검토 회복 적 재판의 심리적 결과 청소년을위한 중재라고 생각하십시오 범죄, 주로 청소년

그리고이 논문은 정말 흥미 롭습니다 그들을 묶을 수있는 충분한 텍스트가있는 막 대형 차트 그리고 흐름이 있음을 알 수 있습니다 차트는 매우 간단합니다 이것은 형사 사법 제도가 공정 했어

왼쪽의 두 막대는 희생자입니다 오른쪽에있는 두 개의 막대는 범죄자입니다 과 왼쪽의 각 그룹은 회복 적 정의에 참여한 사람들입니다 범죄에 대한 희생자 – 가해자 중재 그리고 오른쪽의 각 세트는 표준 형사 절차를 통해 그것은 법원을 말하지만, 일반적으로 항변 교섭을 의미합니다

어쨌든, 두 경우 모두 복원력 정의 바가 더 높은; 사람들은 그것이 공정하다고 말할 가능성이 더 큽니다 그들은 또한 그들이 그들의 이야기를 말할 기회; 그것이 그들이 공정하다고 생각할 수있는 한 가지 이유입니다 그들은 또한 범죄자가 더 자주 책임을 져야한다고 생각했습니다 사실, 법원에 가면 그 범죄자는 50 퍼센트 미만이고 그 범죄자들은 판단 그러면 용서와 사과에 갈 수 있습니다

그리고 또, 이것은 실제로 코드 작성이 간단하고 엄청난 차이가 있음을 알 수 있습니다 사실, 그와 같은 큰 차이가있는 이유는 법정에 선서하는 대신에 범법자 아주 희소하게 피해자를 만난다 또한 이것에 대한 자격이 필요하다는 것이 밝혀졌습니다 학문의 낱단은 상해 또는 사고없이 음주 운전을 포함했다 음, 언제

우리는 그들을 데리고 나간다 그리고 나서 우리는 사람이 만족하는지 여부로 갈 수 있습니다 결과와 함께 다시, 우리는 회복 적 정의를위한 이점을 봅니다 희생자의 여부 아직도 범죄에 대해 화가났다

이제 바는 약간 다르다 그리고 그들이 revictimization을 두려워하고 그것은 2 대 1의 차이점 이상입니다 그리고 마침내 범죄자에 대한 재범 또는 재범; 거기에는 큰 차이가 있습니다 그래서 뭐 나는 여기 아주 많은 차트를 읽는 것이 아주 간단하며, 그들은 전체적인 인상을주는 방법을 설명하고 조금 더 자세하게 설명합니다 저기있다

아무것도 여기에 공상 아무것도 거기에 아무것도 대화 형, 아무 것도 애니메이션, 거기에 아무것도 17 가지 다른 방향으로 흐르는 종류 그것은 쉽지만 이야기를 따라 간다 데이터에 관한 이야기이며 프레젠테이션 그래픽을 사용하는 주요 목표가되어야합니다 요약하면 : 프리젠 테이션 또는 프리젠 테이션에 사용하는 그래픽이 그래픽과 동일하지 않습니다 당신은 탐험을 위해 사용합니다

그들은 서로 다른 요구를 가지고 있으며 서로 다른 목표를 가지고 있습니다 하지만 당신이하고있는 일과 그래픽에 분명하고 노력하고있는 것에 집중하십시오 말하다 그리고 무엇보다 다른 관점을 제공하는 강력한 내러티브를 만듭니다 고객의 질문을 예상하고 질문을 던지면서 질문에 답합니다

가장 신뢰할 수있는 견고한 정보 및 분석에 대한 최대의 확신 마지막 요소 내가 말하고 싶었던 데이터 과학과 의사 소통의 재현 가능한 연구이다 과 당신은 그것을이 생각으로 생각할 수 있습니다 당신은 그 노래를 다시 연주 할 수 있기를 원합니다 그리고 그 이유는 데이터 과학 프로젝트가 거의 "한 번하고 끝났다"는 것입니다

증분이되기 위해서는 누적되는 경향이 있으며, 이러한 상황에 적응하는 경향이있다 여기에서 중요한 일 중 하나는 아마 당신이 요약하고 싶다면 아주 간단히 말해서, 당신의 일을 보여주세요 이것에 대한 몇 가지 이유가 있습니다 너는 가질지도 모른다 나중에 자신의 연구를 수정하고 자신의 분석을합니다 다른 프로젝트를하고있을 수도 있습니다

이전 연구에서 무언가를 빌리고 싶습니다 당신이 그것을 건네 야 할 가능성이 더 큽니다 미래의 시점에서 누군가 다른 사람에게 물러서서 그들은 이해할 수 있어야 할 것입니다 당신이 한 그리고 과학적으로나 경제적으로 모두 중요한 문제가 있습니다

책임 성 연구 당신은 당신이 책임있는 일을했다는 것을 보여줄 수 있어야합니다 당신의 결론은 정당하다 그것은 고객, 기관, 규제 기관, 학술 평론가, 다수의 사람들 자, 당신은 그 개념을 잘 알고있을 것입니다

오픈 데이터의 개념에 익숙하지 않을 수도 있습니다 그거야 공개 데이터 이상 그래서, 예를 들어, 저는 여러분에게 뭔가가 있다는 것을 알려 드릴 것입니다 열린 데이터 사이언스 컨퍼런스 및 ODSC

com 그리고 그것은 일년에 세 번 만날 수 있습니다 장소 물론 이것은 개방형 데이터와 개방형 데이터를 모두 사용하여 개방형 데이터 과학에 전념하는 것입니다 그러나 그 방법을 사람들 주위에 투명하게 만듭니다

이걸 만들 수있는 한 가지 정말 간단합니다 오픈 사이언스 프레임 워크 (Open Science Framework)는 OSFio에 있습니다 그 어떻게 데이터를 얻었는지에 대한 주석을 사용하여 데이터와 연구를 공유하는 방법 다른 사람들과의 모든 것 연구를 투명하게 만든다

필요한 것 나의 전문 단체 중 하나 인 심리 과학 협회 이를 개방 관행 (open practices)이라 불리는 주요 이니셔티브가 있는데, 그들은 강력하게 장려하고있다 사람들은 윤리적으로 허용되는 한도 내에서 데이터를 공유하고 자신의 데이터를 절대적으로 공유해야합니다 방법을 연구하기 전에 심지어 엄격한 지적 정직을 얻는 방법으로 책임감 이제이 모든 작업의 ​​또 다른 단계는 데이터를 보관하고 사용 가능한 정보는 선반에 두십시오

그리고 여기서 뭘하고 싶은지, 원하는거야 모든 데이터 세트를 보관할 수 있습니다 네가 그것으로 무엇이든하기 전에 두 가지 모두 완전히 익지 않았다 데이터 세트 및 최종 클린 데이터 세트까지의 모든 단계를 포함합니다 그와 함께, 프로세스에서 사용한 모든 코드를 보관하고 데이터를 분석하려고합니다

R이나 Python과 같은 프로그래밍 언어를 사용했다면 정말 간단합니다 네가 사용했다면 구문 파일을 저장해야하는 SPSS와 같은 프로그램은 그런 식으로 수행 할 수 있습니다 그리고 다시, 무엇이든간에 자유 주의적으로 의견을 말하고 자신을 설명하십시오 자, 부분 그 과정을 설명해야만합니다 왜냐하면 당신은이 외로운 사람이 아니기 때문입니다

혼자서 일하는 소파에 앉아, 당신은 다른 사람들과 함께 있고 설명 할 필요가 있습니다 왜 그렇게 했지? 당신은 선택과 그 결과를 설명 할 필요가 있습니다 그 선택, 되돌아 가서 다시 시도해야했던 시대 이것은 또한 당신의 일을 미래 보장하는 원리 여기에 몇 가지 일을하고 싶습니다

첫번째; 자료 CSV 또는 쉼표로 구분 된 값과 같이 독점적이지 않은 형식으로 데이터를 저장하려고합니다 파일은 CSV 파일을 읽을 수 있기 때문에 독점 SPSSsav에 저장 한 경우 형식을 사용하면 누군가가 나중에 사용하려고 할 때 많은 문제가 발생할 수 있습니다 열어 봐

또한 저장 공간이 있습니다 모든 파일을 안전하게 액세스 할 수 있도록 배치하려는 경우 아마도 GitHub와 같은 위치가 최선의 선택 일 것입니다 그런 다음 코드를 원할 수 있습니다 Packat for R 또는 가상 환경과 같은 의존성 관리 패키지와 같은 것을 사용하는 방법 파이썬은 여러분이 사용하는 패키지를 확실히 만드는 방법이다 항상 거기에있다

때때로 일들이 업데이트되고 깨지기 때문에 작동하는 버전 이것은 당신이 가지고있는 시스템이 항상 작동 할 것입니다 전반적으로, 당신은 생각할 수 있습니다 이것에 대해서도 : 너 자신을 설명하기를 원한다 그리고 그 일을 할 수있는 깔끔한 방법은 서술을하는 것이다

노트북에서 이제 실제 실험실 서적을 만들거나 디지털 서적을 만들 수 있습니다 정말 공통점이 있는데, 특히 파이썬을 사용하고 있다면 Jupyter는 "y"를 사용합니다 중간에 Jupyter 노트북은 양방향 노트북입니다

여기에 하나의 스크린 샷이 있습니다 내가 파이썬으로 만들었고, 제목이 있고, 텍스트가 있고, 그래픽이 있습니다 만약 너라면 R에서 일하고 있습니다 RMarkdown이라는 이름으로이 작업을 수행 할 수 있습니다 어떤 작품에서 RStudio에서와 같은 방식으로 Markdown을 사용하고 주석을 달 수 있습니다

너는 할 수있다 rmarkdownrstudiocom에서 자세한 정보를 얻으십시오 예를 들어 R 분석이 있습니다

나는 당신이 왼쪽에있는 코드를 볼 수 있고, 권리 이것에 관해 깔끔한 것은 코드의 조금만이,이 제목과 이것입니다 텍스트와 R 코드의이 작은 비트가이 형식의 표제로 표시됩니다 형식이 지정된 텍스트로 바뀌면 바로이 부분이 전체 R 출력으로 바뀝니다 이 방법은 어떤 것을하다

RMarkdown을 사용하면 실제로 문서를 업로드 할 수 있습니다 RPubs라고 불리는 것으로 그것은 접근 가능한 온라인 문서입니다 누구에게나 다음은 샘플 문서입니다 가서보고 싶다면 이걸로 갈 수 있어요

주소 그것은 길다 그래서 나는 당신이 너 자신을 쓰도록 허락 할 것이다 그러나, 합계 : 여기에 우리가 가진 것이 있습니다 당신은 당신의 일을하고 협업을 지원합니다

당신의 선택을 설명하고, 당신이 한 일을 말하고, 당신이 한 일을 보여주십시오 그것 이렇게하면 미래에 직장을 견제 할 수 있기 때문에 다른 상황에서도 효과가 있습니다 사람들 가능한 한 많이, 당신이 그것을 어떻게 하든지간에 당신의 서술을 확실히 공유하십시오

사람들은 당신의 프로세스를 이해하고 당신의 결론이 정당하다는 것을 알 수 있습니다 강력하고 신뢰할 수있는 자, 내가 말할 때 여러 번 언급 한 것 데이터 과학, 나는이 결론에서 다시 할 것입니다 사람들은 다음 단계 그리고 지금 당장 당신을 위해 할거예요

네가 궁금해 하는게 있다면 이 매우 일반적인 개요 과정을 본 후에해야 할 일은 몇 가지 아이디어를 줄 수 있습니다 1 번, 아마 R이나 파이썬에서 코딩을 시도하기 시작하고 싶을 것이다 우리는 그 (것)들을위한 과정 가장 중요한 데이터 시각화를 시도해 볼 수도 있습니다 당신이 할 수있는 일들

통계와 어쩌면 몇 가지 그것과 함께 간다 그리고 기계 학습에 손을 대고 싶을 수도 있습니다 이 모든 것 당신을 데려 올 것이며 데이터 과학의 실천에 굴복 할 것입니다 당신도 볼 수 있습니다 데이터 소싱에서 수행 할 정보를 찾습니다

하지만 아무리해도 그것을 맥락에서 지키려고 노력하십시오 예를 들어, 데이터 과학은 마케팅, 스포츠, 건강, 교육, 예술, 그리고 실제로 엄청난 수의 다른 소지품 그리고 우리는 여기 datalabcc에서 모든 것을 다룰 수있는 코스를 갖게 될 것입니다 너는 또한 데이터 과학 커뮤니티에 참여하기를 원합니다

최고의 컨퍼런스 중 하나 당신이 갈 수있는 곳은 오라일리 지층입니다 Predictive Analytics World는 전 세계 여러 해에 다시 한번 있습니다 그때 훨씬 작은 회의가 있습니다 저는 Tapestry 나 tapestryconferencecom을 좋아합니다

데이터 과학에서의 스토리 텔링 그리고 Extract, 데이터 스토리에 관한 1 일간의 컨퍼런스 사용할 수있는 훌륭한 데이터 소싱 응용 프로그램 중 하나 인 importio를 사용합니다 웹 데이터 스크랩하기 실제 데이터로 작업하기를 원한다면 좋은 선택이 될 것입니다 Kaggle

com에 보내고 실제로 현금 보상을받는 데이터 과학 경연 대회를 후원합니다 또한 함께 작업 할 수있는 멋진 데이터 세트가있어 작업 방법을 비교하고 비교할 수 있습니다 다른 사람들의 결과와 당신의 결과 그리고 일단 당신이 그것에 편안함을 느끼면, 당신은 실제로 돌아 서서 약간의 서비스를하려고 할 것입니다; datakindorg는 최고입니다 인도주의 봉사로서의 데이터 과학 조직 그들은 주변의 주요 프로젝트를 수행합니다

세계 나는 그들의 예를 좋아한다 당신이 할 수있는 다른 것들이 있습니다 연례 행사가있다 Do Good Data '라고 불리는 데이터 랩을 사용하면 datalab

cc는 연 2 회 데이터 charrettes를 후원하며, 유타 지역의 사람들이 지역 비영리 단체와 협력 할 수있는 기회입니다 그들의 데이터에 그러나 무엇보다이 것을 기억하기 바란다 : 데이터 과학 근본적으로 민주적이다 모든 사람이해야 할 일을 배우는 것이 필요합니다 길, 모양 또는 형태

데이터로 작업 할 수있는 능력은 근본적인 능력이며 모두에게 도움이됩니다 지능적이고 민감하게 데이터로 작업하는 법을 배우는 것이 더 나을 것입니다 또는, ~으로 다른 말로하면 : 데이터 과학은 당신을 필요로합니다 이 입문서에 참여해 주셔서 감사합니다 코스와 나는 그것이 좋았던 희망과 나는 다른 코스에서 당신을 만날 것을 고대한다

여기 datalabcc에서 "데이터 소싱"에 오신 것을 환영합니다 나는 바튼 폴슨이고이 ​​과정에서 우리는 Data Opus에 대해 이야기하거나 필요한 데이터 라틴어입니다 여기에있는 아이디어는 데이터, 데이터 과학 없음; 그리고 그것은 슬픈 일입니다

그래서, 우리가가는 것을 남겨 두는 대신에 이 과정을 사용하여 데이터 및 방법을 측정하고 평가하는 방법에 대해 이야기합니다 기존의 데이터에 액세스하고 새로운 맞춤 데이터를 생성하는 방법까지도 지원합니다 그걸 가져 가라 함께하면 행복한 상황이됩니다 동시에 우리는이 모든 작업을 접근성, 개념 및 기술 수준이 아닌 기술 수준의 기술 자료를 제공합니다

나중에 다른 코스에서 일어난다 그러나 지금은 데이터를 이야기 해 봅시다 데이터 소싱의 경우 첫 번째 우리가 얘기하고 싶은 것은 측정입니다 그리고 그 범주 안에서 우리는 이야기 할 것입니다 측정 항목에 대해

여기에있는 아이디어는 실제로 원한다면 목표가 무엇인지 알아야한다는 것입니다 그것을 치는 기회를 갖기 이에 대한 몇 가지 특별한 이유가 있습니다 우선, 데이터 과학은 행동 지향적이다 목표는 단순히 이해하는 것과 반대되는 일을하는 것입니다

나는 학업 수행자로서 말하는 것입니다 또한, 귀하의 목표 요구 명시 적이어야하며 이는 목표가 귀하의 노력을 안내 할 수 있기 때문에 중요합니다 그래서, 당신은 원한다 당신이 성취하고자하는 바를 정확히 말해서, 언제 거기에 도착했는지 알 수 있습니다 또한 목표 고객의 이익을 위해 존재하며 좌절을 예방할 수 있습니다

그들은 네가 뭘하는지 알지 노력하면서, 그들은 당신이 거기에 가기 위해해야 ​​할 일을 알고 있습니다 마지막으로, 목표와 메트릭스는 애널리스트의 이익을 위해 존재하기 때문에 시간을 잘 활용할 수 있습니다 당신이 끝났을 때, 당신이 무언가로 나아갈 수있을 때를 압니다 모든 것이 조금 더 효율적이고 조금 생산적입니다

그리고 우리가 이것에 대해서 이야기 할 때 가장 먼저하고 싶은 것은 특정 프로젝트 나 도메인에서 성공을 정의하는 것입니다 판매 또는 클릭 연결과 같은 것을 포함 할 수있는 상거래 환경에 따라 요금, 또는 새로운 고객 교육에는 시험 점수가 포함될 수 있습니다 졸업식을 포함 할 수있다 비율 또는 유지

정부에서는 주택과 일자리가 포함될 수 있습니다 연구에서, 그것은 당신이 더 잘 이해할 수있는 사람들에게 봉사 할 수있는 능력을 포함 할 수 있습니다 그래서, 뭐든간에 당신이 거기에있는 도메인은 성공을위한 다른 표준이 될 것이며 당신은 귀하의 도메인에 무엇이 적용되는지 확인하십시오 다음은 구체적인 측정 기준 또는 측정 방법입니다 지금 여기에도 몇 가지 카테고리가 있습니다

비즈니스 측정 항목이 있습니다 핵심 성과 지표 또는 KPI에는 스마트 목표 (약어)가 있습니다 또한 여러 목표를 갖는 문제 나는 그것들 각각에 대해서 잠깐 이야기 할 것이다 지금

우선 비즈니스 메트릭에 대해 이야기 해 봅시다 당신이 상업 세계에 있다면 성공을 측정하는 몇 가지 일반적인 방법이 있습니다 매우 분명한 것은 판매 수익입니다 너니? 더 많은 돈을 버는 것, 당신은 물건을 옮기고 있습니까? 또한 문제가 있습니다 신규 고객 또는 새로운 잠재 고객을 생성 할 수 있습니다

그 이유는 다음과 같습니다 차례, 미래 판매와 관련됩니다 고객 가치 또는 평생의 문제도 있습니다 고객 가치, 그래서 당신은 소수의 고객을 가질 수 있습니다,하지만 그들은 모두 많은 수익을 가지고 이를 사용하여 현재 시스템의 전반적인 수익성을 실제로 예측할 수 있습니다 그런 다음 해지율이 발생합니다

이는 해가지고 새로운 것을 얻고 얻는 것과 관련이 있습니다 고객 및 많은 매출액을 가져야합니다 그래서, 이것들 중 어떤 것도 정의 할 수있는 잠재적 인 방법입니다 성공과 그것을 측정 이들은 잠재적 메트릭이며, 다른 것들도 있습니다

그러나 이것들은 몇 가지입니다 정말 일반적인 것들 이제는 이전에 핵심 성과 지표라는 것을 언급했습니다 또는 KPI KPI는 David Parmenter에서 왔으며 몇 가지 설명 방법이 있습니다

비즈니스를위한 핵심 성과 지표라고 말합니다 번호 하나는 비재무 적이어야하며 결론과 관련이 있거나 그와 관련된 것이거나 협회의 전반적인 생산성 그들은시기 적절해야합니다, 예를 들면, 매주, 매일, 심지어는 끊임없이 정보를 수집합니다 최고 경영자가 있어야하므로 고위 경영진 팀은 조직 구성에 영향을주는 결정을 내리는 조직입니다 KPI에 작용합니다

그들은 간단해야합니다 그래서 조직의 모든 사람들, 모두가 알고 있습니다 그들이 무엇인지 알고 그들에 대해 무엇을해야하는지 알고 있습니다 그들은 팀 기반이어야하므로 팀은 각 KPI 회의를위한 공동 책임 그들은 중요성을 가져야한다 충격, 그것이 실제로 의미하는 것은 그들이 하나 이상의 중요한 결과에 영향을 주어야한다는 것입니다

따라서 수익성과 시장 접근성을 높이거나 제조 시간을 단축하고 결함을 줄일 수 있습니다 마지막으로, 이상적인 KPI에는 제한적인 어두운면이 있습니다 즉, 가능성이 적음을 의미합니다 잘못된 행동을 강화하고 시스템을 악용하는 사람들에게 보람을 줄 수 있습니다 다음으로, 스마트 목표가 있습니다

SMART는 Specific, Measurable, Assignable to a 특정 사람, 현실주의 (당신이 실제로 당신이 자원으로 그것을 할 수 있다는 것을 의미합니다 ), 그리고 시간 제한, (그래서 당신은 언제 끝날 수 있는지 알고) 그래서, 당신이 형성 할 때마다 당신은이 기준들 각각에 대해 그것을 평가하려고 노력해야한다는 목표를 말하고 있습니다 이것이 우리 조직의 성공을 측정하는 척도로 사용되는 것이 좋은 목표라는 것입니다 지금, 그러나 트릭은 여러 개의 목표, 가능한 여러 끝점이있는 경우에 해당합니다

그리고 이유가 어렵다는 이유는 단지 한 가지 목표에만 집중하는 것이 쉽기 때문입니다 수익을 극대화하려는 경우 또는 졸업률을 극대화하려는 경우에 유용합니다 저기있다 네가 할 수있는 많은 것들 많은 일에 집중해야 할 때 어려워집니다

동시에 이러한 목표 중 일부가 충돌 할 수 있기 때문에 특히 그렇습니다 그 일들 당신은 하나를 극대화하기 위해 다른 것을 손상시킬 수 있습니다 그래서 그렇게되면 실제로 필요합니다 의도적 인 최적화 프로세스에 참여하려면 최적화해야합니다 과 데이터가 충분하다면이 작업을 수행 할 수있는 방법이 있습니다

너는 수학적으로 할 수있어 하나의 목표와 다른 목표를 추구하려는 노력의 이상적인 균형을 찾는 최적화 동시에 자, 이것은 매우 일반적인 요약이며 이것을 마무리하겠습니다 요약해서 말하면, 측정 기준 또는 측정 방법은 조직이 얼마나 훌륭한 지에 대한 인식을 도울 수 있습니다 기능과 얼마나 잘 당신의 목표에 도달하고 있습니다

여러 가지 방법이 있습니다 성공을 정의하고 그러한 것들에 대한 진행 상황을 측정 할 수 있습니다 트릭, 그러나 여러 목표를 동시에 달성하기위한 노력의 균형을 맞추어야 할 때 최적화와 같은 것들을 필요로 할 수 있습니다 데이터 소싱 및 측정에 관해 이야기 할 때, 하나의 중요한 문제는 측정의 정확성과 관련이 있습니다 아이디어는 여기에있다

당신이 모든 아이디어를 버려야하는 것을 원하지 않는다는 것입니다 너는 낭비하고 싶지 않아 노력 매우 정량적 인 방식으로이를 수행하는 한 가지 방법은 분류 표를 만드는 것입니다 그래서, 어떻게 생겼습니까? 예를 들어 긍정적 인 결과, 부정적입니다

결과 그리고 실제로 처음부터 여기에서 살펴 보겠습니다 여기의 가운데 두 열 사건이 있는지 여부, 집에 불이 났는지 여부, 판매가 발생하는지 여부 등에 대해 이야기하십시오

또는 당신이 세금 탈출자를 가지고 있는지 여부와 상관없이 그래서, 그것은 특정한 것이 실제로 일어나거나 아닙니다 왼쪽에있는 테스트 또는 지표에서 일이 일어나고 있거나 일어나지 않고있다 그리고 나서 당신은 진정한 긍정의 조합을가집니다 테스트에서 문제가 발생했다는 것을 나타내며 실제로는 거짓 평가입니다 어디서? 시험은 그것이 일어나고 있다고 말합니다

그러나 그것은 아닙니다 시험은 그것이 일어나지 않고있다라고 말한다 그리고 그것이 틀린와 가짜의 네거티브 테스트 결과에 따르면 아무 일도 없다고하지만 실제로 사건이 발생하고 있습니다 그리고 너는 총 열 수를 얻기 시작합니다

존재하거나 부재중인 총 이벤트 수는 테스트 결과에 대한 행 합계 자,이 테이블에서 네가 얻는 것은 4 가지 종류의 정확도입니다 또는 서로 다른 표준을 사용하여 정확도를 정량하는 네 가지 방법이 있습니다 그리고 그들은 감수성, 특이성, 양성 예측도, 음성 예측도 값 각자 어떻게 작동하는지 간단히 보여 드리겠습니다

감도 표현 가능 이런 식으로 화재가 발생하면 경보 음이 들립니까? 당신은 그 일이 일어나길 원합니다 그래서 진정한 긍정적 인면을보고 전체 알람 수로 나눈다 따라서 테스트 양성이라는 것은 알람이 있다는 것을 의미하며 현재의 이벤트는 화재를 의미합니다 화재가 발생하면 항상 경보가 울기를 원합니다 반면에 특이성은 이것의 편에 속합니다

화재가 없다면 경보가 조용합니까? 이것은 여기서 전체 결석 현상에 대한 참된 네거티브의 비율을보고 있습니다 화재는 발생하지 않으며 알람 소리가 울리지 않으며, 이는 사용자가 원하는 것입니다 지금, 그들은 찾고 있습니다 기둥; 행을 가로 질러 옆으로 갈 수도 있습니다 그래서 첫 번째 긍정적 인 것입니다

예측 가치, 종종 PPV로 줄여서, 우리는 순서를 조금 뒤집었다 알람이 울리면 화재가 있었습니까? 이제, 당신은 진실을보고 있습니다 양성 반응을 일으켜 양성 반응의 총 수로 나눕니다 총 긍정 수 : 언제든지 알람이 울립니다 진정한 긍정적 인 것은 화재가 있었기 때문입니다

그리고 부정적인 예측 가치, 또는 NPV, 알람이 울리지 않는다고 말하면, 실제로 그것이 있다는 것을 의미합니까? 무슨 불? 자, 여기 네가 참된 네거티브를보고 전체 네거티브로 나누면, 그것이 울리지 않는 시간 그리고 다시, 당신은 그것을 극대화하기를 원합니다 진정한 긍정적 인 반응을 원할 때와 같은 방식으로 모든 네거티브를 설명하십시오 모든 긍정적 인면에 대해 자,이 모든 것들을 0 % ~ 100 %로 생각하면 가능한 한 최대화하는 것이 좋습니다 그래서, 요컨대이 테이블에서 우리는 네 가지 종류의 정확도를 얻었고 다른 초점이 있습니다 각 하나씩

그러나 동일한 전반적인 목표, 당신은 진정한 긍정과 참된 원판을 찾고 false positive와 false negative를 피하십시오 그리고 이것은 측정의 정확성에 대한 지수를 실제로 올리는 방법 지금 데이터 소싱은 매우 정량적 인 주제처럼 보일 수 있습니다 특히 우리가 이야기 할 때 측정 그러나 나는 여기서 한 가지 중요한 것을 측정하고 싶습니다

그것은 사회적인 맥락입니다 측정 여기에있는 아이디어는 사람들이 사람들이라는 것입니다 자신의 목표를 달성하고, 그들 자신의 길을 가고 있습니다 그리고 우리 모두는 우리 자신의 생각과 감정을 가지고 있습니다

서로 항상 일치하는 것은 아니며 측정에 영향을 줄 수 있습니다 그래서, 예를 들어, 목표를 정의하려고 할 때 목표를 극대화하려고 할 때 예를 들어 비즈니스 모델과 같은 것을보고 싶습니다 조직의 사업 모델, 그들이 사업을 수행하는 방식, 돈을 버는 방식, 그것의 정체성과 그 이유 그리고 만약 당신이 추천하고 그것과 상반된다면 실제로 자신의 핵심 정체성에 대한 위협으로 인식 될 수있는 비즈니스 모델에 이르기까지, 사람들은 그 상황에서 놀란다 또한, 제한, 그래서 예를 들어, 조직적으로나 문화적 으로든 법률, 정책 및 관습이있을 수 있습니다

목표를 달성 할 수있는 방법을 제한 할 수 있습니다 이제는 대부분이 이해가됩니다 아이디어는 당신이 원하는 어떤 것도 할 수 없다는 것입니다 당신은 이러한 제약이 필요합니다 그리고 언제 당신은 당신의 추천을합니다, 아마 당신이 그들 인 것처럼 창조적으로 일할 것입니다

여전히 법적으로나 윤리적으로 행동하지만 이러한 제약 사항을 인식 할 필요가 있습니다 다음은 환경입니다 그리고 여기에서 아이디어는 경쟁이 조직간에 발생한다는 것입니다 그 회사는 목표를 달성하려고 노력하고 있지만 회사 B와 경쟁하고 있습니다 그곳에는 조직 내에서의 경쟁이 더욱 심하게 있습니다

이것은 실제로 사무실 정치에 대한 인식입니다 컨설턴트로서 추천을 할 때 당신의 분석에 기초하여, 당신은 조금 축구를 떨어 뜨리는 것이 당신을 이해할 필요가 있습니다 사무실에 들어가면 사물을 한 사람의 직업으로, 어쩌면 해가 될 것입니다 다른 그리고 당신의 권고가 최대한 효과를 발휘하기 위해서 사무실에서 잘 놀아 라 그것은 당신이 만드는 것처럼 당신이 알고 있어야 할 것입니다

당신의 추천 마지막으로 조작 문제가 있습니다 그리고 슬픈 자명 한 사실에 대해서 사람들은 보상 체계, 어떤 보상 체계도 착취 당할 것이며 사람들은 일반적으로 시스템을 게임하게됩니다 이것은 특히 강한 단절이있을 때 발생합니다

당신은 적어도 80 퍼센트를 얻어야합니다 그렇지 않으면 당신은 해고되고 사람들은 무엇이든 할 것입니다 그들의 숫자는 80 % 인 것처럼 보입니다 당신이 볼 때 이것은 엄청 많이 일어난다 임원 보상 시스템을 갖추고 있다면 지분 학교 테스트가 매우 높을 때 많이 보입니다

그것은 엄청난 수의 상황에서 발생합니다 따라서 위험을 인식하고 있어야합니다 착취와 게임 이제 모든 것이 사라 졌다는 것을 생각하지 마십시오 포기하지 마라, 너 여전히 훌륭한 평가를 할 수 있습니다

좋은 통계를 얻을 수 있습니다 당신이 당신의 연구와 연구를 수행함에 따라이 특별한 이슈들과 그들에게 민감합니다 당신이 추천 한대로 요약하면, 사회적 요인이 목표에 영향을 미치고 당신이 그 목표를 달성하는 방법 제한과 결과가 있습니다

목표와 방법, 실제로, 목표가 무엇인지, 그리고 당신이 조언을 할 때 목표에 도달하는 방법 메트릭스 및 방법으로 상황이 어떻게 진행되는지에 민감합니다 사람들은 목표를 달성하기 위해 행동을 조정할 것입니다 그렇게하면 뭔가를 만들 수 있습니다 의미있는 방식으로 구현 될 가능성이 높으며 정확하게 예측할 가능성이 높습니다 당신의 목표와 함께 일어날 수있는 일

데이터 소싱과 관련하여 분명히 가장 중요한 것은 것은 데이터를 얻는 것입니다 그러나 적어도 이론적으로는이를 수행하는 가장 쉬운 방법은 기존 데이터 책장으로 가서 가지고있는 데이터를 가져 오는 것으로 생각하십시오 바로 옆에있다 이제는 몇 가지 다른 방법이 있습니다

사내 데이터를 얻을 수 있으며, 공개 된 데이터를 얻을 수 있으며 타사 데이터를 얻을 수 있습니다 생각해 볼 수있는 또 다른 좋은 방법은 독점적, 공개 및 구매 데이터; 세 번은 그 소리를 들었습니다 얘기하자 이들 각각에 대해 좀 더 자세히 설명합니다 따라서 사내 데이터는 이미 귀하의 조직에서

그것에 대해 좋은 점은 정말 빠르고 쉽습니다 이 형식은 컴퓨터의 소프트웨어 종류에 적합 할 수 있습니다 당신이 사용하고 있습니다 운이 좋다면 좋은 문서가 있습니다 사내 사람들끼리 함께 던지기 때문에 조심해야합니다

품질 관리 문제가 있습니다 이제는 모든 종류의 데이터에서 마찬가지입니다 당신은 사정을 알 필요가 없기 때문에 사내에서주의를 기울여야합니다 사람들이 데이터를 수집하고 얼마나 많은 관심을 지불했는지에 대한 정보를 제공합니다 제한 사항도 있습니다

사내에있는 동안 일부 데이터가있을 수 있습니다 사용이 허용되지 않거나 결과를 게시하거나 공유하지 못할 수 있습니다 다른 사람들과 결과 그래서, 이것들은 여러분이 생각할 때 여러분이 생각할 필요가있는 것들입니다 사내 데이터를 사용하려면 어떻게하면 데이터 과학을 용이하게 할 수 있을까요? 프로젝트

특히, 몇 가지 장단점이 있습니다 사내 데이터는 잠재적으로 빠르며, 쉽고 무료 잘만되면 표준화되어 있습니다 어쩌면 원래의 팀도 이 연구는 아직 거기에 있습니다 데이터에 식별자를 추가하면 쉽게 사용할 수 있습니다

당신이 개별적인 수준의 분석을 할 수 있습니다 그러나 사기 측면에서 사내 데이터 단순히 존재하지 않을 수도 있고, 아마도 거기에 있지 않을 수도 있습니다 또는 설명서가 적합하지 않을 수 있습니다 물론 품질이 불확실 할 수도 있습니다 항상 사실이지만, 당신이 가지고있을 수 있습니다

사내 데이터를 사용할 때보다주의를 기울여야합니다 이제 다른 선택은 열려 있습니다 데이터는 도서관에 가서 뭔가를 얻는 것과 같습니다 이것은 자유롭게 준비된 데이터입니다 이용 가능하며, 정부 데이터 및 기업 데이터 및 과학 데이터와 같은 것으로 구성됩니다

여러 출처에서 내가 좋아하는 공개 데이터 소스를 보여 드리겠습니다 그래서 당신은 그들이 어디에 있는지, 그리고 그것이 존재한다는 것을 압니다 아마도, 최고의 하나는 여기 datagov입니다 미국

이것이 바로 미국 정부의 공개 자료가있는 곳입니다 또는 주 수준 1 일 수 있습니다 예를 들어 유타에 있는데 데이터가 있습니다 더 많은 지역 정보를 얻을 수있는 훌륭한 원천입니다 유럽에 계시다면 open-data

europaeu, 유럽 ​​연합은 데이터 포털을 엽니 다 그리고 주요 비영리 단체가 있습니다 UN은 통계 및 모니터링 데이터에 대해 uniceforg/statistics를 보유하고 있습니다

세계 보건기구에는 whoint/gho의 세계 보건 전망대가 있습니다 그리고 거기에 퓨 리서치 (Pew Research)와 같은 공공의 이익을 위해 일하는 사기업 센터는 많은 데이터 세트를 공유하고 뉴욕 타임즈는이를 가능하게합니다 API를 사용하여 거대한 양의 데이터를 대량으로 액세스 할 수 있습니다 시간 범위 그리고 두 개의 어머니로드 중 google

com에있는 Google이 있습니다 멋진 데이터 인 공개 데이터 그리고 아마존의 awsamazoncom/datasets에는 아마존이있다

거대한 데이터 세트 따라서 크기가 5 테라 바이트와 같은 데이터 세트가 필요한 경우, 이것은 당신이 그것을 얻기 위해 갈 것 인 장소 다 자, 여기에는 몇 가지 장단점이 있습니다 이런 종류의 공개 데이터 첫째, 매우 가치있는 데이터 세트를 얻을 수 있다는 것입니다

수백만 달러를 모아서 처리해야합니다 그리고 당신은 매우 넓은 범위를 얻을 수 있습니다 주제와 시간 및 사람들의 그룹 등등 그리고 종종 데이터의 형식이 잘 지정되어 있습니다 잘 문서화되어있다

그러나 몇 가지 단점이 있습니다 때때로 편향된 샘플이 있습니다 예를 들어 인터넷에 접속할 수있는 사람 만 얻을 수 있습니다 각자 모두 때로는 데이터의 의미가 명확하지 않거나 정확하게 의미하지 않을 수도 있습니다

당신이 원해요 잠재적 인 문제는 때때로 분석을 공유해야 할 수도 있습니다 독점적 인 연구를하고 있다면 잘 읽어야합니다 그래서 일부 고객들과 함께 압착을 만들 수 있습니다 그리고 마지막으로 문제가 있습니다

프라이버시와 기밀성 그리고 공개 된 데이터에서 일반적으로 식별자 거기에 있지 않으며 당신은 더 큰 전체 측정 레벨에서 작업해야 할 것입니다 또 다른 옵션은 제 3 자의 데이터를 사용하는 것입니다 이러한 서비스는 Data as a Service 또는 DaaS 데이터 중개자라고 부를 수도 있습니다 데이터 중개인에 관한 한 다양한 주제에 대한 엄청난 양의 데이터를 제공하며, 시간과 노력을 들여서 실제로 처리 할 수 ​​있습니다

그리고 그것은 포함 할 수 있습니다 소비자 행동 및 선호와 같은 것들, 연락처 정보를 얻을 수있는 마케팅 정체성과 재정을 수행하면 많은 것들이 있습니다 많은 데이터가 있습니다 브로커 주변, 여기 몇 가지 있습니다 Acxiom은 아마도 마케팅 측면에서 가장 큰 제품 일 것입니다

데이터 주로 미디어 소비를위한 데이터를 제공하는 Nielsen도 있습니다 과 또 다른 조직 인 Datasift가 있습니다 그리고 꽤 예쁘다 다양한 선택이 가능하지만, 큰 것들이 있습니다

이제, 데이터 중개인, 거기에 몇 가지 찬성과 몇 가지 단점이 있습니다 찬성하는 사람이 먼저 있습니다 많은 시간과 노력을 절약 할 수 있습니다 또한 개별 레벨 데이터를 제공 할 수 있습니다 공개 된 데이터를 얻기가 어려울 수 있습니다

공개 데이터는 일반적으로 커뮤니티 수준입니다 그들은 할 수있다 특정 소비자에 대한 정보를 제공합니다 그들은 당신에게 요약과 추론을 줄 수 있습니다 신용 점수 및 결혼 상태와 같은 것들에 관해서 어쩌면 사람이 도박을 하든지간에 또는 담배를 피우십시오

이제, 죄수는 1 호기가 정말 비쌀 수 있습니다 거대한 봉사; 그것은 많은 이익을 제공하고 이에 따라 가격이 책정됩니다 또한, 당신은 여전히 그것의 유효성을 검사 할 필요가있다, 당신은 그것이 당신이 생각하는 것을 의미한다는 것을 다시 한번 확인해야한다 그리고 그것이 당신이 원하는 것과 함께 작동한다는 것입니다 그리고 아마도 여기서 가장 중요한 점은 제 3 자 데이터의 사용은 많은 사람들에게 불쾌감을 줄 수 있으므로 당신이 선택하는 것처럼

요약하면, 기존 데이터를 소싱하는 데이터가 간다면 분명히 데이터 과학은 데이터를 필요로하며 데이터 소스의 3 가지 PS가 있습니다 독점적 인 공공 및 구매 그러나 당신이 사용하는 소스가 무엇이든 관계없이주의를 기울여야합니다 품질 및 사용자의 편의를 위해 데이터의 의미와 유용성 프로젝트 데이터 소싱의 경우 데이터를 가져 오는 가장 좋은 방법은 API라고하는 것

자, 저는 이것을 Prufrock 's의 디지털 버전으로 생각합니다 인어들 TS 엘리어트의 알프레드 프리프록 (Alfred Prufrock)의 러브 송에 대해 잘 알고 있다면 "나는 인어가 각각 노래하는 것을 들었습니다"라고 TS 엘리어트가 말했습니다 그리고 난 좋아 이를 위해 "API가 각자 노래하는 것을 들었습니다"라고 말하면됩니다

이제 더 구체적으로 API에 대해 이야기 할 때, 우리가 말하는 것은 무엇인가입니다 응용 프로그램 프로그래밍 인터페이스 (Application Programming Interface)라고 불리는이 프로그램은 서로 이야기하기 데이터 과학 측면에서 가장 중요한 용도는 당신은 웹 데이터를 얻을 수 있습니다 그것은 당신의 프로그램이 웹으로 직접 갈 수있게 해줍니다 데이터, 마치 로컬 데이터 인 것처럼 다시 가져와야합니다

정말 멋지 네요 의회 이제 데이터 과학을위한 API의 가장 일반적인 버전을 REST API라고합니다 그 Representational State Transfer (대표 상태 전송)를 나타냅니다 그것은 다음과 같은 소프트웨어 아키텍처 스타일입니다

월드 와이드 웹을 사용하면 HTTP를 통해 웹 페이지의 데이터에 액세스 할 수 있습니다 즉, 하이퍼 텍스트입니다 전송 프로토콜 그들은 우리가 알고있는 것처럼 웹을 운영합니다 그리고 다운로드 할 때 일반적으로 자바 스크립트 객체 표기법 (Javascript Object Notation)의 약자 인 JSON 형식으로 가져 오는 데이터입니다

그것에 대한 좋은 점은 사람이 읽을 수 있지만 기계를 사용하는 것이 더 좋습니다 그런 다음 해당 정보를 가져와 다른 프로그램으로 직접 보낼 수 있습니다 과 REST API에 대한 좋은 점은 언어 불가지론 (language agnostic)이라고하는 것입니다 모든 프로그래밍 언어는 REST API를 호출하고, 웹에서 데이터를 가져올 수 있으며, 무엇이든 할 수 있습니다 그것과 함께해야합니다

이제는 흔히 볼 수있는 몇 가지 API가 있습니다 그만큼 첫 번째는 소셜 API라고하는 것입니다 이들은 소셜 네트워크와 연결하는 방법입니다 예를 들어 가장 일반적인 것은 Facebook입니다 Twitter도 있습니다

Google 토크가 사용되었습니다 큰 하나, FourSquare, 그리고 SoundCloud 이것들은 인기있는 것들 그리고 비주얼 API라고 불리는 것이 있습니다 비주얼 데이터, 예를 들어, 구글 맵스가 가장 보편적이지만 YouTube는 무엇인가입니다

특정 웹 사이트 또는 날씨를 얻기위한 AccuWeather에서 YouTube에 액세스합니다 정보 사진은 Pinterest, 사진은 Flickr 그래서, 이것들은 정말로 공통 API를 사용하고 컴퓨터가 이러한 서비스에서 데이터를 가져 오도록 프로그램 할 수 있습니다 사이트를 만들고 자신의 웹 사이트 또는 여기에 자신의 데이터 분석에 통합하십시오 지금, 당신이 이것을 할 수있는 몇 가지 다른 방법이 있습니다

당신은 통계적 프로그래밍 인 R로 프로그램 할 수 있습니다 언어, 당신은 파이썬에서 그것을 할 수 있습니다, 당신은 심지어 아주 기본적인 BASH 명령에서 그것을 사용할 수 있습니다 라인 인터페이스, 그리고 다른 응용 프로그램 톤이 있습니다 기본적으로 액세스 할 수있는 항목이 있습니다 API를 한 방법 또는 다른 이제 R에서 어떻게 작동하는지 보여 드리고자합니다

RStudio에서 스크립트를 열어서 아주 기본적인 정보를 얻으려고합니다 웹 페이지에서 RStudio로 가서 어떻게 작동하는지 보여 드리겠습니다 대본을 열어 보자 RStudio에서는 여기에서 일부 데이터 소싱을 수행 할 수 있습니다

자, 이제 막 사용할거야 JSON Lite라는 패키지를로드하려고합니다 그런 다음 몇 가지 웹 사이트로 이동하십시오 Formula 1 자동차 경주에서 역사적인 데이터를 얻으려고합니다 나는 Ergast

com에서 그것을 얻을 것입니다 이제이 페이지로 이동하면 바로 지금 내 브라우저로 가십시오 그리고 이것이 바로 그 모습입니다 API를 제공합니다 문서화, API를 위해하는 일은 웹 주소를 입력하는 것입니다

그 웹 주소에는 원하는 정보가 포함되어 있습니다 나는 여기로 다시 돌아갈 것이다 1 초 JSON 형식으로 1957 년 경주에 대한 정보를 얻으려는 경우이 항목으로 이동합니다 주소

나는 잠시 그걸 건너 뛸 수 있고, 당신이 보는 것은 그것이 아주 길다는 것이다 여기서 혼란 스럽지만 모든 레이블이 붙어 있으며 여기에서 무슨 일이 일어나고 있는지 컴퓨터에 분명합니다 R로 돌아 가자 그러면 내가 할 일은, 그 URL을 여기에있는 객체를 R에 넣은 다음 JSON의 명령을 사용하여 해당 URL을 읽습니다 그것을 R에 저장하십시오

그리고 그것은 지금 한 것입니다 그리고 나는 그것을 확대 할 것입니다 무슨 일이 있었는지 알 수 있어요 나는 이런 종류의 텍스트 혼란을 겪었습니다 이것은 실제로 목록 객체입니다

그리고 나서 저는 그 객체의 구조를 얻으 려합니다 그래서 이것을 할 것입니다 바로 여기에서 목록이라는 것을 알 수 있으며 모든 변수의 이름을 제공합니다 각 목록 내에서 그리고 내가 할 일은 다음과 같이 변환 할 것입니다 데이터 프레임에 나열하십시오

나는 목록을 살펴보고 내가 원했던 정보가 어디 있는지 발견했다 위치, 당신은이 큰 긴 진술을 여기에 사용해야한다, 그것은 나에게 운전자의 이름을 줄 것이다 다시 한 번 확대 해 보겠습니다 저기 그들이있어 그리고 난 그 칼럼 만 가져올거야

데이터 프레임의 해당 비트에 대한 이름 그래서 저는 여기에 여섯 가지 변수가 있습니다 그리고 나서 내가해야 할 일은 처음 다섯 가지 사례 만 골라서 일부 변수를 선택하여 다른 순서로 넣을 것입니다 그리고 내가 그렇게 할 때, 이것이 내가 얻는 것입니다 나는 그것을 다시 확대 할 것이다

그리고 처음 다섯 명의 사람들이 1957 년에 뽑은이 데이터 세트는 후안 판지오 (Juan Fangio)입니다 운전사, 그리고 그 해에 경쟁 한 다른 사람들 그래서 내가 한 일은 R에서이 API 호출을 사용하여 매우 간단한 작업 이었지만 웹 페이지에서 데이터를 가져올 수있었습니다 구조화 된 형식으로 작성하고 매우 간단한 분석을 수행합니다 그리고 우리가 한 일을 요약 해 봅시다

이 모든 것을 배웠습니다 우선, API는 웹 데이터로 작업하기가 정말 쉽습니다 구조체를 사용하여 호출 한 다음 프로그램에 직접 입력합니다 너 분석 해봐 그리고 그들은 데이터를 얻고 시작하는 가장 좋은 방법 중 하나입니다

데이터 과학 데이터를 검색 할 때 데이터를 가져 오는 또 다른 좋은 방법은 긁어 모으기 이것이 의미하는 것은 웹 페이지에서 정보를 끌어내는 것입니다 나는 언제 그것을 생각하고 싶은가? 데이터가 공개 상태로 숨어 있습니다 거기에 있습니다, 당신은 그것을 볼 수 있습니다

그러나 쉽고 즉각적인 것은 아닙니다 그 데이터를 얻는 방법 이제 스크래핑을 다루면 몇 가지 데이터를 얻을 수 있습니다 다른 형식 웹 페이지에서 HTML 텍스트를 가져올 수 있으며 HTML 페이지를 웹 페이지에 나타나는 행과 열

PDF에서 데이터를 스크래핑 할 수 있습니다 이미지와 비디오 및 오디오의 모든 종류의 데이터에서 데이터를 스크랩합니다 이제, 우리는 우리가 다른 말을하기 전에 매우 중요한 자격 : 저작권에주의를 기울이십시오 프라이버시 웹상의 무엇인가가 당신에게 허락된다는 의미는 아닙니다

잡아 당깁니다 정보가 저작권으로 보호되므로 여기에서 예제를 사용하면 확실합니다 이것은 공개적으로 사용할 수있는 물건이며, 할 때도 똑같이해야합니다 당신 자신의 분석 이제 데이터를 다듬 으려면 두 가지 방법이 있습니다

번호 하나는이를 위해 개발 된 앱을 사용하는 것입니다 예를 들어, importio는 다음 중 하나입니다 내가 좋아하는 것들 그것은 웹 페이지와 그 주소이며, 다운로드 가능한 앱입니다

ScraperWiki도 있습니다 Tabula이라는 응용 프로그램이 있습니다 Google 스프레드 시트 (초당 시연 예정) 및 Excel 또는, 그렇지 않은 경우 응용 프로그램을 사용하고 싶거나 응용 프로그램이 실제로 수행하지 못하는 작업을 원한다면 스크레이퍼 코드 R, Python, Bash 또는 Java로 직접 만들거나 PHP

자, 이제 어떻게 할 것인가? 웹 페이지 HTML 텍스트를 찾고 있다면, 구조화 된 구조를 풀 (pull)해야합니다 브라우저에서 독자보기가 작동하는 것과 유사한 웹 페이지의 텍스트 HTML 태그를 사용합니다 웹 페이지에서 중요한 정보를 확인하십시오 그래서 시체와 같은 것이 있습니다

헤더 1에는 h1, 단락에는 p, 꺽쇠 괄호가 사용됩니다 정보를 얻을 수도 있습니다 HTML 테이블에서 이것은 행과 열의 실제 테이블이지만 내가 보여주고 있습니다 이것은 또한 테이블과 같은 HTML 테이블 태그를 사용하고 테이블 행에 대해서는 tr, 테이블 행에 대해서는 tr, 테이블에 대해서는 td를 사용합니다 데이터, 그것은 셀입니다

트릭은이 작업을 수행 할 때 테이블 번호와 때때로 시행 착오를 통해 그것을 찾아야 만합니다 내가 한 가지 예를 들자 어떻게 작동하는지 Iron Chef America Competition에서 위키 백과 페이지를 살펴 보겠습니다 나는 지금 웹에 가서 그걸 보여줄거야

그래서, 여기 우리는 위키피디아에 있습니다 철 요리사 미국 그리고 당신이 조금 아래로 내려 가면, 우리는 여기 텍스트의 무리, 우리는 목차를 가지고있다, 그리고 우리는 여기에 내려와, 우리는 승자를 표시하는 테이블, 승자에 대한 통계가 있어야합니다 우리가 원한다고 가정 해 봅시다 분석을 위해이 웹 페이지에서 다른 프로그램으로 끌어와보십시오

글쎄, 극도로 Google 스프레드 시트로이를 쉽게 수행 할 수 있습니다 Google 시트를 열면됩니다 Google 시트의 A1 셀에이 공식을 붙여 넣습니다 그것은 IMPORTHTML입니다 웹 페이지를주고 테이블을 가져오고 있다고 말하면, 따옴표 안에 물건들, 그리고 테이블에 대한 색인 번호

나는 조금 주위를 찌를 필요가 있었다 이 숫자는 표 2였습니다 Google 스프레드 시트로 이동하여 이 작품 여기에 Google 시트가 있으며 지금은 아무 것도 없습니다 하지만 시계 이; 내가이 세포에 이르면 그 정보에 모든 것들을 붙여 넣기 만하면된다

마술처럼 일종의 시트에 전달되어 매우 쉽게 처리 할 수 ​​있습니다 이제 예를 들어 이것을 CSV 파일로 저장하여 다른 프로그램에 넣을 수 있습니다 다양한 옵션 그래서 이것은 사용하지 않았기 때문에 웹 페이지에서 데이터를 긁어 모으는 한 가지 방법입니다 API를 사용했지만 정보를 얻으려는 매우 간단한 단일 링크 명령을 사용했습니다

자, 그 HTML 표였습니다 또한 PDF에서 데이터를 스크래핑 할 수도 있습니다 그것이 맞는지 당신은 알고 있어야합니다 네이티브 PDF, 텍스트 PDF 또는 스캔 또는 이미징 PDF라고합니다 그리고 그것으로 무엇을 하는가? 네이티브 PDF의 경우 텍스트 요소를 찾습니다

다시 이것들은 이것이 코드임을 나타내는 코드와 같습니다 본문 래스터 이미지, 픽셀 이미지 또는 벡터를 처리 할 수 ​​있습니다 선을 사용하면 많은 상황에서 무한히 확장 할 수 있습니다 그리고 PDF에서, 표 형식의 데이터를 처리 할 수는 있지만, 아마도 Scraper와 같은 전문 프로그램을 사용해야 할 것입니다

Wiki 또는 Tabula를 사용하십시오 마지막으로 이미지 및 비디오와 같은 미디어 및 오디오 이미지를 얻는 것은 쉽습니다 당신은 많은 다른 방법으로 그들을 다운로드 할 수 있습니다 그런 다음 데이터를 읽으려는 경우, 예를 들어 국가, 당신은 그것을 통해 갈 수 있지만 아마도 당신이 프로그램을 작성해야 루프 이미지를 통해 픽셀 단위로 데이터를 읽어 들이고 숫자로 인코딩합니다

통계 프로그램 자, 저의 간단한 요약과 그것을 요약 해 보겠습니다 먼저 사용하지 않으려는 데이터에 기존 API가없는 경우 시도해 볼 수 있습니다 근근이 살아가고 R이나 Python과 같은 언어로 코드를 작성할 수 있습니다 하지만, 당신이 무엇이든 저작권 및 개인 정보 보호 문제에 민감해야하므로 귀하는 뜨겁게 지내지 않습니다

물 대신 분석을 통해 자신이나 고객에게 유용 할 수 있습니다 그만큼 데이터 소싱의 다음 단계는 데이터를 만드는 것입니다 그리고 구체적으로, 우리는 새로운 데이터 나는 이것에 대해 생각하고 싶다 당신은 손을 잡고있다

그리고 당신은 "데이터를 얻고있다 de novo "라는 새로운 데이터가 필요합니다 따라서 분석에 필요한 데이터를 찾을 수 없습니까? 간단한 해결책은, 너 자신하십시오 그리고 우리는 몇 가지 일반적인 전략들에 대해서 이야기 할 것입니다 그 일을하는 데 사용됩니다

이제 이러한 전략은 몇 가지 측면에서 다양합니다 첫째로 역할 당신은 수동적이며 이미 일어난 일을 단순히 관찰하고 있습니까, 아니면 당신입니까? 데이터를 얻기 위해 상황을 만드는 데 중요한 역할을하는 곳은 어디입니까? 그리고 거기에 "Q / Q 질문", 즉 양적, 숫자, 데이터 또는 정성적인 데이터를 얻으려고합니까? 보통 텍스트, 단락, 문장을 의미합니다 사진, 비디오, 오디오와 같은 것들이 있습니까? 그리고 어떻게 할거 니? 자료? 온라인으로 하시겠습니까, 아니면 직접 방문하길 원하십니까? 자, 여기있다 이것 이외의 다른 선택 사항들도 있지만 이것들은 그 방법의 큰 묘사자들 중 일부입니다

언제 당신은 그것들을 본다, 당신은 가능한 몇 가지 옵션을 얻는다 번호 하나는 인터뷰이고, 나는 그것들에 대해 더 많이 말하십시오 또 하나는 설문 조사입니다 세 번째는 카드 정렬입니다 그리고 네 번째 실제로 실험을 두 종류의 범주로 나누고 싶지만 하나는 실험입니다

첫 번째는 실험실 실험이며, 이는 여러분이 형성하는 직접적인 프로젝트입니다 참여가 어떻게 변하는지를 보는 방법으로서 참가자의 정보 또는 경험 그들의 반응 반드시 참여자라는 의미는 아니지만 그 상황 그리고 A / B 테스트도 있습니다 자동 또는 온라인 테스트입니다

웹 페이지의 유사 콘텐츠가 더 많습니다 그것은 아주 단순한 종류의 실험입니다 사실 웹 사이트 최적화에 매우 유용합니다 요컨대,이 짧은 소개에서 필요한 것을 정확히 얻을 수 있는지 확인하십시오 질문에 대답하는 데 필요한 데이터를 얻으십시오

그리고 어딘가에서 그것을 찾을 수 없다면, 그것을 만드십시오 그리고 언제나처럼, 당신은 가능한 많은 것을 가지고 있습니다 방법 각각에는 그들의 자신의 힘 및 그들의 자신의 타협이있다 그리고 우리는 이야기 할 것입니다 다음 섹션에서 각각에 대해 설명합니다

데이터 소싱의 첫 번째 방법은 내가 이야기하고 싶은 새로운 데이터를 만드는 것은 인터뷰입니다 그게 아니라 가장 일반적인 것이지만 가장 기본적인 문제를 해결하기 위해해야 ​​할 일이기 때문입니다 지금, 기본적으로 인터뷰는 다른 사람이나 그룹과의 대화 일뿐입니다 사람들의 근본적인 질문은 조사를하는 것과는 대조적으로 인터뷰를하는 이유입니다

또는 다른 것? 음, 그럴만한 이유가 있습니다 1 번 : 일하고 있어요 새로운 주제로 사람들의 반응이 무엇인지, 어떻게 반응하는지 등을 알지 못합니다 과 그래서 당신은 무언가를 매우 개방적으로 필요로합니다 2 번 : 새로운 잠재 고객과 작업하고 있습니다

당신은 그들이 무엇을하려고하는지에 대해 그들이 어떻게 반응 할 것인지를 모른다 번호 3 : 현재 상황에서 어떤 일이 진행되고있어 더 이상 작동하지 않으며 무슨 일이 일어나고 있는지 찾아야하며, 개선 할 방법을 찾아야합니다 개방형 정보 당신이 과거에 얻은 곳은 기존 범주이고 경계는 가장 유용한 것 중 하나가 될 수 있습니다 해당 데이터를 가져 오는 방법 당신이 그것을 다른 방식으로 쓰고 싶다면 인터뷰를 원한다 응답을 제한하고 싶지 않을 때 이제 면접에 관해서, 당신은 하나의 매우 기본적인 선택입니다

그리고 그것은 당신이 구조화 된 인터뷰를하는지 여부입니다 그리고 구조화 된 인터뷰, 당신은 미리 결정된 질문들을 가지고 있으며, 모두가 똑같은 것을 얻습니다 같은 순서로 질문한다 응답이 많아도 일관성을 유지할 수 있습니다 개방적이다

그런 다음 구조화되지 않은 인터뷰를 수행 할 수도 있습니다 이 당신이 면접관과 당신이하는 사람인 대화와 훨씬 더 가깝습니다 말하기 – 당신의 질문은 그들의 대답에 대한 응답으로 발생합니다 결과적으로, 구조화되지 않은 인터뷰는 당신이 이야기하는 사람마다 다를 수 있습니다 또한 인터뷰는 대개 직접 해보았지만 놀랍지 만 전화 나 온라인을 통해 할 수 있습니다

이제 인터뷰에 대해 염두에 두어야 할 몇 가지 사항이 있습니다 번호 하나는 시간이다 인터뷰 1 인당 몇 분에서 몇 시간까지 다양합니다 두 번째는 훈련입니다 인터뷰 보통 특별한 훈련이 필요한 특수 기술

자, 질문하는 것은 아닙니다 반드시 어려운 부분 정말 까다로운 부분은 분석입니다 가장 어려운 부분 인터뷰는 주제에 대한 해답을 분석하고 새로운 내용을 추출하는 방법입니다 카테고리 및 추가 연구에 필요한 치수가 포함됩니다 아름다운 것 인터뷰에 관해서는 그들이 결코 예상하지 못한 것을 배울 수 있다는 것입니다

그래서, 요약하면 인터뷰는 새로운 상황이나 새로운 잠재 고객에게 가장 적합합니다 반면에, 그들은 시간이 오래 걸리고 특별한 훈련이 필요합니다 둘 다 면접을 실시하고, 당신이 얻은 높은 질적 데이터를 분석 할 수 있습니다 다음 논리적 데이터 소싱 및 데이터 작성 단계는 설문 조사입니다 이제 이것을 생각해보십시오 : 만약 당신이 뭔가를 알고 싶다면 그냥 물어봐

그것은 쉬운 방법입니다 그리고 특정 상황에서 설문 조사를하고 싶습니다 그만큼 진짜 질문은, 당신이 당신의 화제 및 당신의 경청자를 충분히 예견 할다는 것을입니다 답변? 대답의 범위와 차원 및 범주가 무엇인지 파악하려면 중요한 일이 될 것입니다 그렇게하면 설문 조사가 좋은 접근 방법이 될 수 있습니다 자, 그냥 면접을위한 몇 가지 차원이 있었기 때문에 설문 조사에 대한 몇 가지 차원이 있습니다

당신 폐쇄 형 조사 (closed-ended survey)를 수행 할 수 있습니다 강제 선택이라고도합니다 그것은 객관식을 선택하는 것과 같은 특별한 옵션을 제공합니다 개방형 설문 조사, 모든 사람에게 동일한 질문이 있지만 서면으로 허용합니다 자유 형식의 응답으로 직접 설문 조사를 할 수 있으며 온라인에서도 할 수 있습니다

또는 우편이나 전화를 통해 또는 그러나 그리고 지금은 소프트웨어를 사용하는 것이 매우 일반적입니다 설문 조사 중 온라인 설문 조사에서 가장 일반적으로 사용되는 응용 프로그램 중 일부는 SurveyMonkey 및 Qualtrics입니다 또는 매우 간단한 끝에 Google 설문지가 있고 거기에 간단하고 예쁜 끝이 있습니다

Typeform입니다 더 많은 선택권이 있지만, 이들은 주요 플레이어 중 일부이며 설문 조사 형식으로 온라인 참가자들로부터 데이터를 얻는 방법 자, 좋은 점은 설문 조사는, 그들은 정말 쉽습니다, 그들은 설정하는 것은 매우 쉽고 그들은 정말로 많은 사람들에게 쉽게 보낼 수 있습니다 정말 많은 양의 데이터를 얻을 수 있습니다 에 다른 한편으로, 그들이하기 쉬운 것과 같은 방식으로, 그들은 또한 심하게 행하기 쉽습니다

문제는 당신이 묻는 질문, 모호 할 수있는 질문, 두 배로 묶을 수있는 질문, 로드 할 수 있고 응답 규모가 혼동을 줄 수 있습니다 그래서, 만약 당신이 "나는 결코 이 특별한 방법을 생각하십시오 "그리고 그 사람은 강력하게 동의하지 않는다 정확히 당신이 얻으려고하는 것 그래서, 여러분은 확실히하기 위해 특별한 노력을 기울여야합니다

의미가 명확하고 모호하지 않으며 평가 척도, 사람들이 응답, 매우 명확하고 그들은 그들의 답이 어디로 떨어지는 지 알고 있습니다 어느 것이 우리를 하나가되게한다 사람들이 나쁘게 행동하는 것에 대한 것들을 알고 푸시 설문 조사에 유의하십시오 자, 특히 선거 시간 동안; 우리가 지금 당장하는 것처럼, 밀어 올림 조사는 설문 조사와 마찬가지로, 실제로는 데이터를 얻으려는 편향된 시도이며, 사료 소셜 미디어 캠페인의 경우 또는 98 %의 사람들이 나 한테 동의 해 푸시 설문 조사는 너무 편향된 것이므로 실제로는 한 가지 방법 만 있습니다

질문에 대답해라 이것은 매우 무책임하고 비 윤리적 인 것으로 간주됩니다 연구 관점 그냥 끊어 버려 이제 그 엄청난 위반을 제외하고 연구 윤리의 문제에서 편견을 조심하는 것과 같은 다른 일을 할 필요가있다

말하기, 응답 옵션 및 샘플 선택에서 당신이 정말로 인식하지 못한다면 응답은 어떤 방식 으로든 다른 방식 으로든 밀어 낼 수 있습니다 그것은 일어나고있다 요약하자면, 설문 조사에 대해 말하자 많은 데이터를 얻을 수 있습니다 다른 한편으로, 청중의 가능한 대답에 익숙해야합니다

그래서, 당신은 알다시피, 일종의, 무엇을 기대합니다 그리고 당신이하는 일과 상관없이, 당신은 귀하의 답변이 당신을 대표하는 그룹을 대표 할 수 있도록 이해에 정말로 관심이 있습니다 데이터 소싱의 흥미로운 주제 당신은 데이터를 카드 정렬이라고합니다 자, 이것은 매우 오르는 것이 아닙니다 종종 학문 연구에서, 그러나 웹 연구에서, 이것은 정말로 중요한 방법이 될 수 있습니다

생각한다 당신이하려고하는 것은 여기서 분자 모델을 만드는 것과 같습니다 사람들의 정신 구조에 대한 정신 모형을 세우려고합니다 더 구체적으로 말하자면, 사람들은 어떻게 정보를 직관적으로 구성합니까? 또한 그것들은 어떻게 물건과 관련이 있는가? 당신이 온라인에서하고 있다고? 이제 기본 절차는 다음과 같이 진행됩니다 작은 주제들로 구성되어 있으며 각 카드를 별도의 카드에 씁니다 그리고 당신은 이것을 물리적으로 할 수 있습니다, 3 장 5 장의 카드와 함께, 또는 디지털로 할 수있는 프로그램이 많이 있습니다

그것의 버전 그러면 당신이하는 일은 응답자 그룹에게이 정보를 제공하는 것입니다 사람들은 그 카드들을 분류합니다 그래서 그들은 서로 비슷한 주제를 섞어서 주제 등등 그리고 그 정보를 가져 가면 그 정보를 얻을 수 있습니다

비평가 데이터를 계산합니다 그것이 거리 또는 다양한 주제의 차이 그러면 원시 데이터를 통해 사물이 구조화되어 있습니다 이제 매우 일반적인 두 종류의 카드 정렬 작업이 있습니다 생성 적이며 평가가 있습니다

생성적인 카드 정렬 작업은 응답자는 자신의 세트를 만들고, 그룹 수를 사용하여 카드 더미를 만듭니다 그들은 좋아한다 그리고 이것은 예를 들어 웹 사이트를 디자인하는 데 사용될 수 있습니다 사람들이 갈 경우 다른 정보 옆에있는 정보를 찾고 있다면 원하는 정보를 얻을 수 있습니다 이를 웹 사이트에 함께 넣어서 어디에서 정보를 얻을 수 있는지 알 수 있습니다

한편, 이미 웹 사이트를 만든 경우 평가 카드 정렬을 할 수 있습니다 이 고정 된 번호 또는 고정 된 이름의 카테고리가있는 곳입니다 예를 들어, 당신의 메뉴를 이미 설정 한 방법 그리고 당신이하는 일은 실제로 사람들이 당신이 만든이 다양한 범주에 카드를 넣으십시오 그것이 확인하는 방법입니다

당신의 계층 적 구조가 사람들에게 의미가 있다는 것 자, 당신이하는 방법, 생성 또는 평가, 당신이 카드 구조를 할 때 당신이 끝내는 것은 흥미로운 종류입니다 Dendrogram이라고 불리는 시각화가 필요합니다 그것은 실제로 가지를 의미합니다 그리고 우리가 가진 것 여기에 실제로는 150 개의 데이터 포인트가 있습니다 피셔 스와 친숙하다면 홍채 데이터, 그게 여기서 벌어지고있는 것입니다

그리고 그것은 왼쪽에있는 하나의 거대한 그룹 그런 다음 조각과 조각으로 조각을 나눠서 여러 가지로 끝낼 때까지 관측, 사실, 결국 개인 차원의 관측 하지만 너는 물건을자를 수있어 2 ~ 3 개의 그룹으로 또는 여기에서 가장 유용한 모든 것을 시각화하는 방법으로 개별 정보 간의 유사성 또는 비 유사성의 전체 집합 네가 사람들을 분류 했어 이제 디지털을 원한다면 아주 빨리 언급 할 것입니다 카드 정렬을 통해 실제 카드를 추적하므로 인생을 무한히 쉬게합니다

정말 어렵습니다 Optimal Workshop 또는 UserZoom 또는 UX Suite와 같은 것을 사용할 수 있습니다 가장 일반적인 선택 사항입니다 이제 우리가 배운 것을 요약 해 보겠습니다 이 매우 간단한 개요에서 카드 정렬에 대해

1 위, 카드 정렬 가능 직관적 인 정보 조직을 계층 적 형식으로 볼 수 있습니다 너와 함께 할 수있어 실제 카드를 사용하거나 똑같은 일을하기 위해 디지털 방식으로 선택할 수도 있습니다 그리고 언제 당신은 실제로이 정보의 계층 적 또는 분 지적 시각화를 얻습니다 구조화되어 서로 관련되어있다

데이터 소싱을 수행 할 때 데이터를 만들고, 때로는 쉬운 방법으로 원하는 것을 얻을 수없는 경우가 있습니다 힘든 길을 취해야 해 그리고 당신은 내가 실험실 실험이라고 부르는 것을 할 수 있습니다 지금 물론, 내가 실험실 실험을 언급 할 때 사람들은 물건을 생각하기 시작합니다 그의 실험실에서 Frankenstein 박사가 있지만 실험실 실험은 이것보다 적습니다

실제로 그들은 조금 더 좋아 제가 경력에서했던 거의 모든 실험은 종이였습니다 잘 조명 된 방에있는 사람들과 연필 하나를 치고 위협적인 것은 아닙니다 실험실 실험을하는 이유는 원인과 결과를 결정하기 때문입니다 그리고 이것은 정보를 얻는 가장 이론적으로 실행 가능한 단일 방법입니다

지금, 실험을 실험으로 만드는 것은 연구자가 적극적인 역할을한다는 사실입니다 조작 된 실험에서 이제 사람들은 조작을 들었을 때 조금 정신이 나갔다 당신이 사람들을 강요하고 그들의 마음을 어지럽 혀 있다고 생각하십시오 그게 의미하는 건 당신이 상황을 조작하고있다

당신은 한 그룹에 대해 다른 것을 일으키고 있습니다 사람이나 다른 상황보다 양성 일 뿐이지 만 사람들이 어떻게 다른 유사 콘텐츠에 반응하는지 확인하십시오 자, 당신은 실험을하고 싶어합니다 집중 연구를 원할 것입니다 보통 한 가지 또는 한 가지를 테스트하기 위해 수행됩니다

한 번에 변이 그리고 그것은 일반적으로 가설 중심적입니다 보통 당신은 실험을하지 않습니다 당신은 충분한 배경 ​​조사를 해왔습니다 "나는 사람들이 이런 방식으로 반응 할 것으로 기대한다

이런 상황과 다른 방향으로 나아가는 것입니다 "이 모든 것을 수행하는 핵심 구성 요소는 실험 거의 언제나 샘플을 얻은 방법에 상관없이 무작위로 할당됩니다 당신의 연구에서, 당신은 무작위로 그것들을 하나의 조건 또는 다른 조건에 할당합니다 그리고 그들이하는 일 그룹간에 기존의 차이점을 없애는 것이고 그것은 좋은 방법입니다 혼란과 유물 관리

의도하지 않은 차이점과 관련된 것들 데이터에 대한 대체 설명을 제공하는 그룹 간 너가 좋은 무작위를하면 과제와 그 confounds과 유물보다 충분히 큰 그룹의 사람들이 있습니다 기본적으로 최소화됩니다 이제 실험실 실험을 보게 될 곳이 있습니다 이 버전에서는 눈 추적 및 웹 디자인이 있습니다

이것은 당신이해야 할 곳입니다 컴퓨터 앞에 사람들을 데려 와서 그들이있는 곳을 볼 수있는 물건을 꽂으십시오 찾고 그것이 사람들이 실제로 광고를 보지 않는다는 것을 예를 들어 알 수있는 방법입니다 웹 페이지의 측면

또 다른 매우 일반적인 장소는 의학 및 교육 연구입니다 내 분야에서, 심리학 그리고이 모든 것에서, 당신이 발견 한 것은 실험적 연구는 원인에 대한 신뢰할 수있는 유효한 정보를 제공하는 데있어 가장 중요한 표준으로 간주됩니다 효과 다른 한편으로, 가지고있는 것이 좋은 것이지만, 그것은 비용을 지불합니다

여기에 어떻게 작동하는지 넘버 1, 실험에는 광범위한 전문 교육이 필요합니다 픽업하는 것은 쉬운 일이 아닙니다 두 가지 실험은 대개 시간이 많이 소요됩니다 노동 집약적이다

나는 사람마다 시간이 걸리는 것을 알고있다 그리고 셋째, 실험 매우 비쌀 수 있습니다 그래서, 그것이 의미하는 바는 당신이 가지고있는 것을 확실히하기 위해서입니다 충분한 배경 ​​조사를 마쳤으며 충분한 상황이 필요합니다 이러한 비용을 정당화하기 위해 실제로 신뢰할 수있는 인과 관계 정보를 얻는 것이 중요합니다

실험을 위해서 요컨대 실험실 실험은 일반적으로 인과 관계 또는 인과 관계 평가 그것은 당신이 혼란을 제어 할 수 있기 때문입니다 무작위 반면에, 그것은하기가 어려울 수 있습니다

그러므로 신중하고 신중해야합니다 실험을해야하는지 여부와 실제로 수행 할 방법을 고려할 때 그것 데이터 소싱 및 제작 측면에서 내가 이야기하고 싶은 최종 절차가 하나 있습니다 새 데이터 이것은 실험의 한 형태이며 단순히 A / B 테스트라고하며 웹 세상에서는 매우 흔합니다

그래서, 예를 들어, 나는 겨우 스크린 샷을 움켜 쥐었습니다 Amazoncom의 홈페이지에서 귀하는 홈페이지에 이러한 다양한 요소가 있으며 나는 그런데, 내가이 일을했을 때이 여자가 실제로 애니메이션 GIF임을 알아 차렸다 그래서 그녀는 움직인다 그건 이상한 일 이었어

나는 전에 그것을 본 적이 없다 하지만 그 일은 이것에 대해서,이 전체 레이아웃, 어떻게 것들이 조직되고 그들이 어떻게 거기에 있는지, 아마존의 A / B 테스트 변형에 의해 결정되었습니다 다음은 작동 방식입니다 에 대한 당신의 웹 페이지에서, 당신은 헤드 라인이나 색상이나 무엇이 무엇인지 같은 요소 하나를 선택합니다 조직이나 어떻게하면 무언가를 말하고 여러 버전을 만들 수 있을까요? 두 버전 A와 버전 B, 왜 A / B 테스트라고 부릅니다

그런 다음 사람들이 귀하를 방문 할 때 이 방문자들을 무작위로 하나의 버전 또는 다른 버전으로 지정하는 웹 페이지, 소프트웨어 그건 당신을 위해서 자동으로합니다 그런 다음 일부 응답률을 비교합니다 응답 나는 그것들을 잠깐 보여줄 것이다 그런 다음 충분한 데이터가 확보되면 최고의 버전, 당신은 일종의 솔리드를 설정 한 다음 다른 것을 계속합니다

이제 응답률면에서 볼 때 많은 다른 결과가 있습니다 사람이 페이지에 얼마나 오래 있는지 볼 수 있습니다 실제로 마우스 추적을 할 수 있습니다 너는하고 싶어 클릭 스루를 보거나 쇼핑 카트 값을 볼 수도 있고 포기

가능한 많은 결과 이들 모두는 A / B 테스트를 통해 기여합니다 웹 사이트 최적화의 일반적인 개념; 가능한 한 효과적으로 웹 사이트를 만들 수 있습니다 있을 수 있습니다 이제, 이것은 또한 여러분이 많이해야 할 일이라는 것입니다

계속해서 A / B 테스트를 수행 할 수 있습니다 사실 한 사람이 무엇을 말했는지 보았습니다 A / B 테스트는 항상 테스트를 의미합니다 종류의 귀엽지만, 그것은 당신을 제공하지 않습니다 그 개선은 지속적인 과정이라는 생각

이제 일부 소프트웨어가 A / B 테스트를 수행하기를 원한다면, 가장 일반적인 선택 항목 중 두 가지는 Optimizely와 Visual Web Optimizer를 나타내는 VWO입니다 이제는 다른 많은 기능을 사용할 수 있지만 특히 일반적입니다 데이터를 사용하여 통계 가설 테스트를 사용하여 차이점을 비교하거나 실제로 소프트웨어가 자동으로 수행합니다 그러나 매개 변수를 조정할 수도 있습니다 대부분의 소프트웨어 패키지가 너무 빨리 테스트를 중단하고 정보가 그것이해야하는 것처럼 아주 신뢰할 만하다

하지만 요약하면 A / B 테스트에 대해 말할 수 있습니다 이것은 웹 사이트 실험의 한 버전입니다 온라인으로 이루어 지므로 정말 쉽습니다 많은 양의 데이터를 매우 빠르게 얻을 수 있습니다 웹 사이트의 디자인을 최적화 할 수 있습니다

중요한 결과가 무엇이든간에 그리고 그것은 일련의 연속적으로 행해질 수 있습니다 평가, 테스트 및 개발을 통해 원하는 것을 성취하고 있는지 확인하십시오 가능한 한 많은 사람들을 위해 최대한 효과적으로 마지막 순간 나는 데이터 소싱 측면에서 이야기하고 싶은 것은 다음 단계에 대해 이야기하는 것입니다 아마도 가장 중요한 것은 거기에 앉아있는 것이 아니라는 것입니다 나는 네가 가서 무엇을 보길 원해

넌 이미 가지고있다 일부 공개 데이터 소스를 탐색 해보십시오 도움이된다면 몇몇 데이터 공급 업체 그리고 그 사람들이 당신이 당신의 프로젝트를 수행하는 데 필요한 것을주지 않으면, 새로운 데이터를 만드는 것을 고려하십시오 다시 말하지만, 여기서 생각하는 것은 당신이 필요로하는 것을 얻고 나아가는 것입니다

감사 당신의 프로젝트에 나와 행운을 빌어주었습니다 "데이터 과학 코딩"에 오신 것을 환영합니다 나는 바트 풀슨 (Bart Poulson)과이 비디오 시리즈에서 우리가 할 일은 우리가 취할 것입니다 데이터 과학의 도구를 약간 살펴보십시오 그래서 저는 여러분이 여러분의 도구를 알기를 바랍니다

그러나 아마 그것보다 더 중요한 것은 그들의 적절한 장소를 아는 것입니다 지금, 나는 언급한다 사람들이 데이터 도구에 관해 이야기 할 때가 많아서 그것에 대해 이야기하기 때문에 마치 데이터 과학과 동일한 것인데, 마치 같은 세트였습니다 하지만, 제 생각에 잠깐 보셨을 때 저는 생각합니다 데이터 도구 데이터 과학은 단순히 데이터 과학의 한 요소 일뿐입니다

당신이 사용하는 도구 그것은 비즈니스 지식과 같은 것을 포함합니다 만드는 의미와 해석, 사회적 요인을 포함하므로 훨씬 더 관련된 도구들보다 즉, 적어도 몇 가지 도구가 필요합니다 우리는 데이터 과학에서 사용할 수있는 것들에 대해 이야기 할 것입니다 잘 됐네

시작하는 측면에서, 기본적인 것들 # 1은 스프레드 시트입니다 보편적 인 데이터 도구와 나는 그들이 어떻게 데이터 과학에서 중요한 역할을하는지 이야기 할 것이다 # 2는 Tableau라고하는 시각화 프로그램이며, 무료 인 Tableau public이 있습니다 Tableau 데스크톱이 있고 Tableau 서버라고하는 것이 있습니다

Tableau 데이터 시각화를위한 멋진 프로그램과 저는 대부분의 사람들에게 확신합니다 그들이 필요한 것의 대다수 도구가 아닌데도 웹 데이터에 사용 된 형식에 대해 이야기하십시오 왜냐하면 웹 데이터를 탐색 할 수 있어야하기 때문입니다 많은 데이터 과학 작업을하고 있습니다

그런 다음 필수 도구에 대해 이야기 할 수 있습니다 데이터 과학 여기에는 프로그래밍 언어 R이 포함됩니다이 프로그래밍 언어는 특히 데이터, 일반적인 목적의 프로그래밍 언어 Python이 있습니다이 Python은 데이터에 잘 적용되어 왔습니다

구조화 된 쿼리 언어를위한 데이터베이스 언어 속편이나 SQL이 있습니다 그런 다음 너는 저쪽으로 가고 싶다 할 수있는 다른 것들이있다 거기에 범용 프로그래밍 언어 C, C ++ 및 Java는 매우 자주 사용되며 양식 데이터 과학의 기초와 일종의 높은 수준의 생산 코드가 될 것입니다 그것들에 의지한다 커맨드 라인 인터페이스 언어 Bash가 있습니다

common, 데이터 조작을위한 매우 빠른 도구 그리고 그런 종류의 와일드 카드가 있습니다 수퍼 차저 정규식 또는 Regex 우리는이 모든 것을 별도로 이야기 할 것입니다 행동

그러나, 당신이 사용할 수있는 모든 도구를 고려할 때 80/20 규칙을 잊지 마십시오 파레토 원리라고도합니다 그리고 여기 아이디어는 당신이 많이 얻을 것입니다 소량의 물건에서 당신의 벅을위한 강타의 그리고 너에게 조금 보여줄거야

샘플 그래프는 여기에 있습니다 10 가지 도구가 있다고 상상해보십시오 B A는 당신에게 많은 일을합니다 B는 조금 덜합니다

당신이 필요로하는 것들을 조금만하는 많은 도구들을 가지고 있습니다 이제, 보는 대신 개별 효과면에서 누적 효과를 살펴보십시오 얼마 니? 도구의 조합으로 성취 할 수 있습니까? 여기 60 %의 첫 번째 사람들이 도구가 시작된 다음 B에서 20 %를 추가하면 올라가고 추가됩니다 C와 D 그리고 조금 더 작고 작은 조각들을 더하고 당신이 도착할 때까지 끝으로 10 가지 도구의 효율성을 100 % 합친 것입니다 중요한 이것에 관해서는, 단지 두 번째 툴로 가야합니다

B, 그건 도구의 20 %이고,이 예제에서는 출력의 80 %를 얻었습니다 따라서 도구의 20 %에서 출력되는 80 %의 출력은 파레토 원리의 가상의 예입니다 그러나 나는 실생활에서 그것과 비슷한 것을 작동시키는 경향이 있다는 것을 알았습니다 그래서, 당신은하지 않습니다 반드시 모든 것을 배우고 모든 것을하는 법을 배울 필요가 없습니다

모든 것에 대신에 가장 생산적 일 수있는 도구에 중점을두고 특히 당신을 위해 가장 생산적입니다 요컨대이 세 가지를 말합시다 번호 1, 코딩 또는 단순히 프로그램 및 컴퓨터로 데이터를 조작하는 기능 코딩 중요하지만 데이터 과학은에서 사용되는 도구 모음보다 훨씬 큽니다

그것 마지막으로, 사용할 도구와 필요한 도구를 결정할 때 배우고 일하는 법, 80/20을 기억하십시오, 당신은 작은 도구 집합 그래서, 당신에게 가장 유용 할 것들에 집중하십시오 자신의 데이터 과학 프로젝트를 수행하십시오 우리가 코딩과 데이터에 대한 논의를 시작할 때 과학, 나는 실제로 코딩이 아닌 무언가로 시작하고 싶다

신청서에 대해 이야기하고 싶습니다 또는 데이터를 조작 할 수 있도록 이미 생성 된 프로그램 그리고 우리는 가고있다 가장 기본적인 스프레드 시트로 시작하십시오 행과 열을 Excel의 셀 그 이유는 스프레드 시트가 필요하기 때문입니다

이제, 당신은 말할 수 있습니다 너 자신에게, "나는 내게 큰 공감을 안다 내 큰일에서 일하고있다 일련의 서버들, 나는 멋진 일들이 일어나고 있습니다 "하지만, 당신은 너무나 멋진 사람들입니다

스프레드 시트도 필요합니다 이것에 대한 몇 가지 이유가 있습니다 가장 중요한 것은 스프레드 시트 많은 상황에서 데이터 과학에 적합한 도구가 될 수 있습니다 몇 가지 이유가있다 그에 대한

번호 하나, 스프레드 시트, 어디 에나 있고, 어디에서나 볼 수 있고, 어디에나 있으며, 설치되어 있습니다 전 세계 10 억 대의 컴퓨터에서 모든 사람들이 사용합니다 그들은 아마 더 많은 것을 가지고있다 데이터 세트는 다른 어떤 것보다 스프레드 시트에 있으므로 매우 일반적인 형식입니다 중요한 것은, 그것은 아마 당신의 클라이언트의 형식입니다

많은 고객이 스프레드 시트를 사용하게 될 것입니다 자신의 데이터 나는 그들의 모든 데이터를 지키는 10 억 달러짜리 회사와 함께 일했다 스프레드 시트에 그래서, 당신이 그들과 함께 일할 때, 당신은 그것을 조작하는 방법을 알아야합니다 그리고 그것으로 작업하는 방법

또한 무엇을하고 있든지 상관없이 스프레드 시트는 구체적으로 csv – 쉼표로 구분 된 값 파일 – 일종의 링구아 프랑 또는 보편적 인 교환 형식을 사용하여 한 프로그램에서 다른 프로그램으로 가져갈 수 있습니다 그리고, 사실, 많은 상황에서 사용하기가 정말 쉽습니다 그리고 원하는 경우 이것에 대한 의견은이 랭킹을 살펴 보겠습니다 데이터 마이닝 전문가에 대한 설문 조사가 있습니다 그것은 KDnuggets 데이터 마이닝 조사이며, 이들은 가장 많이 사용하는 도구입니다

자신의 일 그리고 이것을보십시오 : Excel이 5 위를 차지했습니다 실제로 흥미로운 점은 무엇입니까? Hadoop과 Spark는 큰 데이터를 처리하는 중요한 도구 중 하나입니다 그래서, Excel은 실제로 데이터 분석가를위한 툴킷에 자부심을 가지고 있습니다 이제 우리는 로우 테크 엔드의 일종의 일을하려고 할 때, 당신이 할 수있는 것들에 대해 이야기 해 봅시다

스프레드 시트로 할 수 있습니다 첫째, 그들은 데이터 검색에 정말로 좋습니다 너 정말 당신 앞에서 모든 데이터를 볼 수 있습니다 어떤 일을하는 경우에는 사실이 아닙니다 R 또는 Python과 같은

데이터를 정렬하고,이 열을 기준으로 정렬 한 다음 다음에이 컬럼을 선택하십시오 그들은 기둥과 세포를 재 배열하고 움직이는 데 정말로 좋습니다 주변의 것들 그들은 발견하고 교체하고 무슨 일이 일어나는가를 보는 데 좋다 그것이 올바르게 작동했다는 것을 알아라

좀 더 많은 용도로 포맷팅에 특히 유용합니다 조건부 서식 그들은 데이터를 전치시키고, 행과 열을 전환하고, 그들은 그렇게 쉽게합니다 그들은 변화를 추적하는 데 좋습니다 네가 괜찮다면 그건 사실이야

GitHub를 사용하고있는 멋진 데이터 과학자이지만 세계 스프레드 시트 및 추적 변경은이를 수행하는 훌륭한 방법입니다 당신은 할 수 있습니다 매우 직관적 인 방식으로 데이터를 매우 손쉽게 탐색 할 수있는 피벗 테이블 방법 또한 소비를 위해 출력물을 정렬하는 데 정말 좋습니다 네가 언제 그러나 스프레드 시트 작업을 할 때 알아야 할 사항이 있습니다 정말 유연하지만 그 융통성은 당신이 일할 때 문제가 될 수 있습니다

데이터 과학에서 특히 Tidy Data라는 것에 관심을 갖고 싶습니다 그것은 R 세상에서 잘 알려진 개발자 인 Hadley Wickham으로부터 빌린 용어입니다 깔끔한 데이터는 데이터를 전송하고 잘 작동하도록하기위한 것입니다 여기에 몇 가지 규칙이 있습니다 스프레드 시트의 고유 한 유연성을 취소 할 수 있습니다

1 번, 당신이하고 싶은 것은 column은 변수와 같은 것입니다 열, 변수, 그들은 같은 것 그리고 행은 동일합니다 – 사례와 완전히 똑같습니다 너 한테있어 시트 당 하나의 파일로 구성되며, 한 가지 수준의 측정, 예를 들어 개인, 조직, 다음 파일 당 상태

다시 말하지만, 이것은 고유 한 유연성 중 일부를 취소하고 있습니다 스프레드 시트를 사용하지만 한 프로그램에서 다른 프로그램으로 데이터를 이동하는 것이 정말 쉽습니다 이 모든 것이 어떻게 작동하는지 보여 드리겠습니다 이것을 Excel에서 시도 할 수 있습니다 다운로드 한 경우 이 과정의 파일은이 스프레드 시트를 열고 싶을뿐입니다

내가 가자 엑셀과 어떻게 작동하는지 보여줍니다 따라서이 스프레드 시트를 열면 무엇을 얻을 수 있습니까? 여기에 완전히 허구의 데이터가 있습니다하지만 시간이 지남에 따라 여러 판매가 나타납니다 야구장에서 물건을 파는 것처럼 두 위치의 제품 이 스프레드 시트가 자주 나타나는 방식입니다

빈 행과 열이 있고 물건이 있습니다 사람이 그것을 쉽게 처리 할 수 ​​있도록 배열됩니다 우리는 합계를 가지고 있습니다 여기에 수식을 써서 모두 정리할 수 있습니다 그리고 그것은 괜찮습니다

그것은 그 사람을 위해 잘 작동합니다 누가 그것을 만들었습니까 그리고 나서 한 달 동안 그리고 나서 우리는 여기에 또 다른 달이 있습니다 그리고 나서 우리는 여기에 또 다른 달을 보내고 1/4 분기에 그들을 결합합니다 여기에 헤더가 있습니다

조건부 서식 및 변경 사항이 있습니다 우리가 바닥에 오면, 결국로드되는 그래픽이 매우 바쁩니다 그것은 좋은 그래픽이 아닙니다 그러나, 당신이 종종 발견하게 될 것과 비슷합니다 그래서 이건 클라이언트의 개인적인 용도로는 유용 할 수 있지만, 이것을 R이나 파이썬에 넘겨 주면, 그것은 막히게 될 것이고, 그것으로 무엇을해야할지 모른다

과 그래서, 당신은 데이터를 정리하는 과정을 거쳐야합니다 이 작업과 관련된 것은 실행 취소입니다 물건의 일부 예를 들어, 여기에 거의 깔끔한 데이터가 있습니다 여기에 우리는 하나의 날짜의 열, 당일의 단일 열, 사이트의 열, 그래서 우리는 두 개의 위치 A와 B, 그리고 나서 우리는 판매되는 6 가지 다른 것들에 대해 6 개의 기둥을 가지고 있습니다

얼마나 많은 사람들이 매일 팔렸습니까 이제 특정 상황에서는 데이터를 배치해야합니다 예를 들어, 시계열과 같이 정확하게 이것을하면, 당신은 막연하게 뭔가를 할 것입니다 이것과 비슷합니다 그러나 참된 깔끔한 것들을 위해, 우리는 더 붕괴시킬 것입니다

여기에 깔끔한 데이터를 보냅시다 그리고 지금 내가 한 것은 새로운 것을 만들었습니다 팔리는 품목이 무엇인지 알려주는 열 그래서, 이것이 의미하는 바는 우리는 지금 정말로 긴 데이터 세트를 가지고 있습니다 그것은 천 개의 행을 가지고 있습니다

돌아와 여기에 가기 하지만, 그것이 당신에게 보여주는 것은 현재 형식의 것입니다 한 프로그램에서 다른 프로그램으로 쉽게 가져올 수있어 깔끔하고 다시 조작 할 수 있습니다 그러나 일단 당신이 그것들 각각에 도착하면 그것을 원합니다

자, 우리의 작은 발표를합시다 여기 몇 줄에 번호 하나, 당신이 누군지 상관없이, 당신이 무엇을 하든지 상관없이 데이터 과학에서는 스프레드 시트가 필요합니다 그 이유는 스프레드 시트가 종종 데이터 과학에 적합한 도구입니다 그래도 한 가지 명심하십시오

한 언어에서 다른 언어로 앞뒤로 이동, 깔끔한 데이터 또는 올바른 형식의 데이터 분석 프로그래머 언어로 데이터를 내보내는 데 중요 할 것입니다 선택 우리가 "코딩 및 데이터 과학", 특히 응용 프로그램 사용할 수있는 것은, 다른 어떤 것보다 더 눈에 띄는 것이 있습니다 그것은 Tableau와 Tableau Public입니다 자, 당신이 이것들에 익숙하지 않다면, 이것들은 시각화 프로그램입니다

여기서 아이디어는 데이터가있을 때 가장 중요한 당신이 할 수있는 일은 먼저 당신이 가지고있는 것을보고 거기서부터 작업하는 것입니다 실제로 많은 조직에서 Tableau가 실제로 필요한 모든 것 일지 확신합니다 데이터에 건설적으로 필요한 통찰력을 그들에게 줄 것입니다 이제 tableaucom으로 간략히 살펴 보겠습니다

이제 몇 가지 다른 점이 있습니다 Tableau 버전 바로 여기에 우리는 Tableau Desktop과 Tableau Server를 가지고 있습니다 Tableau의 유료 버전 그들은 실제로 많은 돈을 요합니다

비영리 단체 인 경우 무료로 얻을 수 있습니다 어느 것이 아름답습니다 의회 그러나 우리가 일반적으로 찾고있는 것은 유료 버전이 아니지만 우리는 찾고 있습니다 Tableau Public이라고하는 무언가를 위해

그리고 여기에 와서 제품에 가면 여기 세 명의 유료 사람들이 Tableau Public에 있습니다 우리는 그것을 클릭하면 가져옵니다 우리를이 페이지로 publictableaucom입니다

그리고 이것이 우리가 원하는 것을 가진 것입니다 하나의 주요 경고가있는 무료 버전의 Tableau입니다 파일을 로컬에 저장하지 않습니다 귀하의 컴퓨터에, 그래서 내가 당신에게 파일을 열어주지 않았어 대신, 그것들을 공개 형식으로 웹에 보냅니다

따라서 개인 정보를 기꺼이 거래하고자한다면 데이터 시각화를위한 대단히 강력한 응용 프로그램입니다 그것은 많은 것을위한 캐치이다 왜냐하면 사람들은 데스크톱 버전으로 많은 돈을 기꺼이 지불해야하기 때문입니다 또한 비영리 단체에서 일하면 무료로 데스크톱 버전을 사용할 수 있습니다 그러나, Tableau Public에서 일하는 방식을 알려 드리겠습니다

그래서, 그것은 당신은 개인적으로 일할 수 있습니다 가장 먼저하고 싶은 것은 다운로드하려는 것입니다 그래서, 당신은 당신의 이메일 주소를 넣었습니다 당신이 무엇인지 알 것입니다 에

꽤 큰 다운로드입니다 일단 다운로드가 완료되면 설치하고 열 수 있습니다 응용 프로그램을 그리고 여기 나는 Tableau Public에 있습니다, 바로 여기, 이것은 빈 버전입니다 그런데 온라인에서 물건을 저장하려면 Tableau 계정을 만들어야합니다

그것을보기 위해 나는 그 모습을 보여줄 것이다 그러나, 당신은 공란으로 제시됩니다 바로 여기에서해야 할 일은 데이터를 가져와야한다는 것입니다 Excel 파일을 가져 오겠습니다

자, 코스 파일을 다운로드 한 경우, 이 바로 여기에 DS03_2_2_TableauPublicexcelxlsx가 있음을 알 수 있습니다 에서 사실,이 동영상의 첫 번째 동영상에서 스프레드 시트에 대해 이야기 할 때 사용한 항목입니다 코스

그 중 하나를 골라서 열어 보겠습니다 그리고 많은 프로그램들은 그것은 모든 워크 시트와 모든 기이함을 가지고 있기 때문에 Excel을 가져 오는 것과 같습니다 이걸로 더 잘 작동하지만, 내가 할 일은, 나는 깔끔하게 정리할 것입니다 데이터 그건 그렇고, 당신은 그것이 알파벳 순서로 여기에 넣어 것을 참조하십시오

내가 갈거야 깔끔한 데이터와 나는 그것이 내가 원하는 하나임을 알리기 위해 그것을 끌어 올 것이다 이제는 데이터 세트의 버전과 함께 여기에서 할 수 있습니다 이름을 바꿀 수 있습니다 빈 그룹을 만들 수 있습니다

여기서 할 수있는 일 나는이 특별한 것을 가지고 아주 아주 빠르게 뭔가를 할 것이다 하나 이제 데이터 세트를 얻었습니다 지금 제가 할 일은 제가 갈 것입니다

워크 시트에 그것이 실제로 물건을 만드는 곳입니다 취소하고 워크 시트로 이동하십시오 하나 괜찮아

이것은 드래그 앤 드롭 인터페이스입니다 그래서 우리가 할 일은 우리가하는 일입니다 우리가 그래픽을 만들고 싶어하는 정보의 조각들을 끌어낼 것입니다 거대한 여기 유연성 아주 기본적인 두 가지 것을 보여 드리겠습니다

내가 보러 갈거야 내 허구 야구장의 판매 그래서 여기에서 판매를하고 나는 우리가 측정하려고하는 분야로 그것을 넣을 것입니다 괜찮아 그리고 보시라

바로 여기 아래로 이것은 우리의 총 판매량입니다 우리는 항목별로 나누기로하고 시각 그럼 여기서 물건을 가져 가자 너는 그걸 여기에 끌 수있어 아니면 넣어 줄 수있어

바로 여기에 줄을 서십시오 그것들은 내 행이 될 것이고 우리가 얼마나 많이 팔렸 을까? 각 항목의 합계 좋아요, 정말 쉽습니다 그리고 나서 데이트를하고 우리는 이것을 여기에 펼쳐 놓을 칼럼에 넣을 것입니다 자, 기본적으로 그것을하고있다

1 년 동안, 나는 그것을하고 싶지 않습니다, 나는 3 개월의 데이터를 갖고 싶습니다 그래서, 내가 할 수있는 일 그렇습니다 여기를 클릭하면 다른 시간대를 선택할 수 있습니다 나는 분기에 갈 수있어, 그러나 그것은 단지 1/4의 가치가있는 데이터를 가지고 있기 때문에 도움이되지 않을 것입니다 그것은 3 가지입니다

개월 나는 일주일에 내려갈거야 사실, 날 보내 줘 내가 하루를 보았다면, 당신은 그것을 본다 엄청나게 복잡해 지므로 좋지 않습니다

그래서 나는 일주일에 백업 할 것입니다 과 거기에 많은 숫자가 있지만, 원하는 것은 그래프입니다 그래서, 그것을 얻으려면, 나는 여기에 와서 이것을 클릭하고 그래프를 원한다고 말하십시오 그래서 우리는 잃어버린 물건을 제외하고 정보를 보는 것 그래서, 나는 물건을 가져 와서 돌려 놓을거야

이 그래프를 보면 데이터의 행이라고 말할 수 있습니다 이제는 판매 행이 있습니다 각 항목에 대해 일주일에 한 번씩 훌륭합니다 나는 퍼팅으로 한 번 더 부셔 먹고 싶다 사이트에서 판매 한 장소

그래서 나는 그것을 붙잡을 것이고 나는 그것을 넣을 것이다 바로 여기 그리고 지금 당신은 내가 판매 된 품목에 의해 세분화 된 것을 볼 수 있습니다 다른 사이트 나는 그 사이트에 색칠을 할 것이고, 그 일을하기 위해해야만하는 것은, 나는 사이트를 움켜 잡고 색깔 위로 끌어 올 것입니다

이제 저는 두 가지 색상이 있습니다 사이트 그리고 이로 인해 무슨 일이 일어나는지 쉽게 알 수 있습니다 사실, 다른 멋진 것들을 할 수 있습니다 내가해야 할 일 중 하나가 분석에 대한 것입니다

모든 것을 통해 평균적인 선을 긋기 위해 말할 수 있습니다 따라서 여기를 드래그 해 보겠습니다 이제 각 라인의 평균값을 구합니다 좋습니다 예측도 할 수 있습니다

나를 시켜줘 여기에 약간의 예측을하십시오 나는 이것을 끌고 넘어갈 수 있다면 이리 나는 이것을 잠시 빠져 나갈 것이다 자, 다음에 대한 예측이 있습니다

몇 주, 그리고 그것은 정말로 편리하고 빠르며 쉬운 일입니다 그리고 다시, 실제로 필요한 조직 일 수 있습니다 그래서, 내가 너에게 보여줄거야 여기 Tableau의 절대적인 기본 동작은 놀라운 범위를 수행 할 수있게 해줍니다 데이터를 조작하고 대화 형 대시 보드를 만들 수 있습니다

저기있다 우리는 그것을 다른 코스에서 보여줄 것입니다 그러나 지금 당장은 당신에게 보여주고 싶습니다 Tableau Public에 관한 한 마지막으로 파일을 저장하는 중입니다 그래서 지금, 내가 여기 올 때

그것을 저장하면 Tableau Public에 로그인하도록 요청할 것입니다 자, 로그인하고 이 비디오를 저장하는 방법을 묻습니다 우리가 간다 저장을 누르십시오 그리고 나서 웹 브라우저가 열리고 이미 내 계정에 로그인되어 있기 때문에, 여기 내 계정과 내 프로필을 참조하십시오

다음은 내가 만든 페이지입니다 그리고 모든 것이 있습니다 내가 필요한 곳 몇 가지 세부 사항 만 편집 할 것입니다 예를 들어, 나는 그 이름 그대로 떠날거야

나는 거기에 더 많은 설명을 넣을 수있다 나는 원했다 사람들이 통합 문서 및 해당 데이터를 다운로드하도록 허용 할 수 있습니다 나는 떠날거야 필요한 경우 다운로드 할 수 있습니다

두 개 이상의 탭이있는 경우 다른 시트를 탭으로 표시한다고 말하는 것 저장을 클릭하십시오 내 데이터 세트가 있습니다 또한 온라인으로 게시되어 사람들이 이제 찾을 수 있습니다 그래서 여기에 네가 가진 것이있다

대화 형 시각화를 생성하는 놀라운 도구입니다 드롭 다운으로 만들 수 있습니다 메뉴를 사용하고 항목을 재정렬 할 수 있으며 전체 대시 보드를 만들 수 있습니다 멋지다 정보를 제공하는 방법, 그리고 전에 말했듯이, 나는 어떤 조직 이는 데이터에서 실제로 유용하고 유용한 정보를 얻는 데 필요한만큼 많이 수행 할 수 있습니다

Tableau와 함께 탐구 할 시간을 갖기를 강력히 권장합니다 유료 데스크톱 버전 또는 공개 버전을 사용하고 실제로 어떤 것을 얻을 수 있는지 알아보십시오 데이터 과학 분야에서의 뛰어난 시각적 효과를 제공합니다 많은 사람들에게, "코딩 및 데이터 과학"에 대한 그들의 첫 번째 경험은 응용 프로그램 SPSS에 있습니다 지금, 나는 SPSS를 생각하며, 내 마음에 오는 첫 번째 일은 아이보리 타워에서 일종의 삶이다

이것은 해리포터와 더 비슷하게 보일지라도 그러나 패키지 이름을 생각하면 SPSS는 사회 과학 통계 패키지에서 제공됩니다 비록 IBM에 문의하면 지금은 아무 것도지지하지 않는 것처럼 행동합니다 하지만, 일반적으로 학문적 인 사회 과학 연구 그리고 진실하게, 나는 사회 심리학자이다

SPSS 사용법을 처음부터 배웠습니다 하지만, 그들의 웹 페이지 ibmcom/spss 그걸 입력하면 별칭이됩니다 귀하는 IBM의 주요 웹 페이지로 이동합니다

이제 IBM은 SPSS를 만들지 않았지만 버전을 중심으로 구입했습니다 16, 그리고 그것은 단지 PASW 예측 분석 소프트웨어로 매우 간략하게 알려져 있었으며 간단히 말하면 이제는 SPSS로 돌아 왔습니다 SPSS는 오랜 기간 동안 있었던 곳입니다 SPSS는 데스크톱 프로그램; 그것은 꽤 크고, 많은 일을하며, 매우 강력합니다 많은 학술 연구에 사용됩니다

또한 많은 비즈니스 컨설팅, 관리, 심지어 일부 의학 연구 그리고 SPSS에 관한 한, 스프레드 시트처럼 보입니다 그러나 당신의 인생을 조금 더 쉽게 만들 수있는 드롭 다운 메뉴가 있습니다 당신이 사용할 수있는 프로그래밍 언어 이제 임시 버전을 무료로 얻을 수 있습니다

학생은 싼 버전을 얻을 수 있습니다 그렇지 않으면 SPSS는 많은 돈을 요합니다 하지만, 만약 당신이 그것은 하나의 방법이나 다른, 당신이 그것을 열 때 이것이 어떻게 생겼는지입니다 나는 SPSS 버전 22를 보여 주며, 현재 24에 있습니다 SPSS 버전 관리에 관한 내용 소프트웨어 패키징 이외의 다른 점은 이것들이 포인트 업데이트 일 것입니다

그래서 저는 우리가 23이나 24가 아닌 173에 있어야한다고 생각합니다 당신이 초기의 것들로부터 배우는 것이 작은 것들은 나중에 일어날 것들을 연구 할 것입니다 많은 후진 및 포워드 호환성이 있기 때문에, 나는 거의 이것을 말할 것입니다 버전 나는 실질적으로 중요하지 않다

당신은이 작은 환영 스플래시 화면을 얻을 수 있습니다 당신은 그것을 더 이상 볼 수 없기 때문에 더 이상 그것을 볼 수 없습니다 나는 단지 취소 할거야 이리 그리고 이것이 우리의 주요 인터페이스입니다

그것은 스프레드 시트와 매우 흡사합니다 차이점은, 변수 정보를보기위한 별도의 창을 가지고 있으며, 별도의 창이 있습니다 출력을 위해, 그리고 Syntax라고 불리는 것을 위해 선택적인 것 하지만 이걸 어떻게 보여 드릴까요? 먼저 데이터 세트를 열어 작동합니다 SPSS에는 많은 샘플 데이터 세트가 있지만 그들은 도착하기 쉽지 않고 정말로 숨겨져 있습니다

예를 들어 내 Mac에서는 나는 그들이있는 곳으로 간다 Mac에서 나는 파인더에 가고, Mac, 응용 프로그램, IBM의 폴더, SPSS, 통계, 버전 번호, 샘플까지 나는 영어로 된 것들을 원한다고 말하고 나서 그것들을 가져온다sav 파일은 실제 데이터 파일입니다 여기에 다른 종류가 있으므로

sav는 다른 파일입니다 파일의 종류와 계획 분석에 대해 다른 점이 있습니다 그래서, 거기에있다 그것의 버전 여기서 "시장 가치

sav"라는 파일을 열어 보겠습니다 데이터는 SPSS 형식으로 설정됩니다 그리고 그걸 가지고 있지 않으면 다른 것을 열 수 있습니다 지금은별로 중요하지 않습니다 그건 그렇고, 당신이 눈치 채지 못했을 경우, SPSS는 열릴 때 정말 천천히

또한 버전 24 임에도 불구하고 버기와 충돌의 종류가 될 따라서 SPSS로 일하면 습관에 빠지기를 원합니다 끊임없이 작업을 저장하십시오 또한 시간을 할 때 인내심을 가지고 프로그램 여기 주소 및 하우스 값을 표시하는 데이터 세트 및 사각형 피트에 대한 정보

이게 진짜 정보인지 아닌지조차 모르겠다 나에게 인공적인 그러나 SPSS를 사용하면 포인트 앤 클릭 분석을 수행 할 수 있습니다 많은 것 그래서 여기에 올 것이고, 예를 들어, 다음과 같이 말할 것입니다

그래프 나는 전통적인 유산 대화를 사용하려고합니다 집값의 히스토그램을 얻는다 그래서 간단히 값을 클릭합니다 바로 저기에 넣어 줘

정상적인 커브를 그 위에 놓고 확인을 클릭하십시오 이것은 새로운 창을 열 것입니다 그리고 그것은 그것의 미세한 버전을 열었습니다, 그래서 나는 그것을 더 크게 만들 것입니다 이 출력 창입니다, 이것은 별도의 창이며 옆에 탐색 창이 있습니다 그것은 데이터가 어디에서 왔는지를 알려주고 여기에 명령을 저장하고 나서, 내 기본 히스토그램이 있습니다

그래서 우리는 대부분의 주택이 약 125,000 달러 였음을 알 수 있습니다 그리고 나서 그들은 적어도 40 만 달러까지 올랐습니다 평균은 256,000 달러이며, 표준 편차가 있습니다 약 $ 80,000의 데이터 집합에 94 개의 집이 있습니다 좋아, 훌륭해

다른 제가 할 수있는 일은, 제가 분석을하고 싶다면 잠깐 동안 데이터로 돌아가 보겠습니다 예를 들어 분석을 위해 여기에 올 수 있으며 설명이 가능하고 실제로 가고 있습니다 탐험이라고하는 여기를 해보십시오 그리고 내가 구입 가격을 받아서 바로 여기에 넣을 게 저는 기본적으로 모든 것을 얻을 것입니다

나는 괜찮을거야 그리고 그것은 간다 출력 창으로 돌아갑니다 다시 한번 작게 만들었습니다 그래서, 이제 내 차트 아래에 보입니다

이제 테이블이 생겨서 많은 정보를 얻었습니다 줄기와 잎의 음모 박스 플롯도 있습니다 이상 값을 확인하는 가장 좋은 방법입니다 그리고 이것은 매우 편리합니다 물건을 구하는 방법

이 정보를 이미지로 내보낼 수 있습니다 전체 파일을 내보낼 수 있습니다 HTML로, 당신은 pdf 또는 PowerPoint로 그것을 할 수있다 여기에는 많은 옵션이 있습니다 여기에있는 모든 것을 사용자 정의하십시오

이제 한가지 더 보여 주려고합니다 SPSS에서 여러분의 삶을 훨씬 쉽게 만듭니다 당신이 바로 여기에있는 것을 보았습니다 명령, 실제로 그래프, 히스토그램, 그리고 정상 평등 값을 말합니다 과 여기에 우리는이 작은 명령을 바로 여기 있습니다

대부분의 사람들은 어떻게 해야할지 모른다 그들의 일을 SPSS에 저장하십시오 그리고 그것은 여러분이 단지 그것을 다시해야만하는 것입니다 매번,하지만 이것을 할 수있는 아주 간단한 방법이 있습니다 내가 할 일은, 나는 Syntax 파일이라고 불리는 것을 열어 봤습니다

나는 새로운 것으로 갈거야, 문맥 과 이것은 프로그래밍 창인 빈 창으로 코드를 저장하는 것입니다 그리고 날 보내줘 나의 분석으로 되돌아가 나는 잠시 전에했다 나는 분석에 돌아갈 것이고 나는 아직도 얻을 수있다

바로 여기 설명 및 탐구, 내 정보가 아직 있습니다 그리고 어떻게 될까요? 여기에, 내가 드롭 다운 메뉴와 포인트 앤 클릭으로 설정하더라도, 내가이 일을한다면, 붙여 넣기를 한 다음 그 명령을 만드는 코드를 가져 와서 저장합니다 이 구문 창에 표시됩니다 그리고 이것은 단지 텍스트 파일입니다

그것은 spss로 저장하지만, 무엇이든 열 수있는 텍스트 파일입니다 이것에 대해 아름다운 점은 복사 및 붙여 넣기가 매우 쉽습니다이 단어를 Word로 가져 와서 찾기 및 붙여 넣기를 수행 할 수도 있습니다 그것을 대체하면 분석을 복제하는 것이 정말 쉽습니다

그리고 저에게 SPSS는 좋은 것입니다 프로그램 그러나 구문을 사용할 때까지는 구문의 진정한 힘을 알지 못하므로 구문이 인생을 그렇게 쉽게 조작 할 수있게 해줍니다 어쨌든, 이것은 나의 아주 간단한 소개이다 SPSS에

제가 말하고자하는 것은 그것이 매우 일반적인 프로그램이라는 것입니다 스프레드 시트를 사용하지만 더 많은 전력과 옵션을 제공하며 드롭 다운 메뉴 메뉴 및 텍스트 기반 구문 명령을 사용하여 작업을 자동화하고보다 쉽게 ​​작업을 수행 할 수 있습니다 미래에 그것을 복제하십시오 "Coding"에 대한 또 하나의 응용 프로그램을 살펴보고 싶습니다 및 데이터 과학 "을 JASP라고합니다

이것은 매우 익숙하지 않은 새로운 응용 프로그램입니다 많은 사람들과 여전히 베타 버전이지만 놀라운 약속이 있습니다 기본적으로 생각할 수 있습니다 SPSS의 무료 버전으로 제공되며 귀하는 무엇을 알고 있으며, 우리는 무료입니다 하지만, JASP는 단지 무료이며 오픈 소스이기 때문에 직관적이며 분석을 복제 할 수 있으며 심지어 베이지안 방식이 포함됩니다

그래서, 모두 함께 가져 가세요 우리는 꽤 행복합니다 우리는 기쁨으로 뛰고 있습니다 그래서, 우리가 계속하기 전에, 당신은 단지 당신 자신에게 묻고있을 것입니다, JASP, 그게 뭐야? 글쎄, 창조주는 단호히 다른 통계를지지한다는 것을 부인했다 프로그램이 될 수도 있지만, 앞으로도 JASP라고 부르며 바로 사용하게 될 것입니다

행복하게 jasp-statsorg로 이동하면 얻을 수 있습니다 그리고 지금 당장 살펴 봅시다 JASP SPSS에 대한 저지방 대안이라고하는 새로운 프로그램이지만, 정말 훌륭한 통계를하는 방법

당신은 당신의 플랫폼을 공급함으로써 그것을 다운로드하기를 원할 것입니다; 그것은 심지어 Linux 형식으로 제공됩니다 그리고 다시 베타 버전이므로 게시 된 상태로 유지하십시오 정기적으로 업데이트 중입니다 Mac 사용자라면 Xquartz를 사용해야 할 것입니다 설치하기 쉬운 것이고 많은 일이 더 잘됩니다

그리고 그것은 훌륭합니다 분석 할 수있는 방법 JASP를 열면 다음과 같이 보일 것입니다 꽤 예쁘다 빈 인터페이스이지만, 그걸로가는 것은 정말 쉽습니다

그래서 예를 들어, 당신은 올 수 있습니다 여기에 파일을 저장하고 예제 데이터 세트를 선택할 수도 있습니다 예를 들어 여기에 하나는 빅 5라는 성격 요소입니다 여기에 데이터가 있습니다 정말 쉽습니다

함께 일해 잠깐 여기 이것을 넘기도록하겠습니다 그래서 다섯 가지 변수가 있습니다 그리고 이것들에 대한 몇 가지 빠른 분석을 해봅시다 예를 들어, 우리는 설명을 원합니다

우리는 몇 가지 변수를 선택할 수 있습니다 이제 SPSS에 익숙하다면 레이아웃이 매우 느껴집니다 훨씬 똑같은데 결과물은 똑같아 보입니다 있잖아, 내가해야 할 일은 선택하는거야 내가 원하는 것은 즉시 여기에 나타납니다

그런 다음 추가 통계를 선택할 수 있습니다 코어 타일을 얻을 수 있습니다 중간 값을 얻을 수 있습니다 그리고 당신은 플롯을 선택할 수 있습니다 어떤 음모를 꾸미 죠

당신이해야 할 일은 그것을 클릭하면 나타나는 것입니다 그리고 그것은 정말 아름다운 것입니다 이러한 것들을 조금 수정할 수 있습니다 예를 들어, 플롯 포인트를 사용할 수 있습니다 내가 그것을 아래로 드래그 할 수 있는지 보자

그리고 내가 그것을 작게 만들면 5 개의 그림을 볼 수있다 나는 그걸 조금 지나치게 멀리 갔다 어쨌든 여기에서 많은 일을 할 수 있습니다 그리고 나는 할 수있다 이것을 숨기면, 나는 그것을 무너 뜨릴 수 있고 나는 계속해서 다른 분석을 할 수있다

자, 정말로 무엇이 깔끔하지만 내가 탐색 할 때 그렇습니다 그래서 방금 결과의 빈 영역을 클릭했습니다 페이지에서 우리는 여기에있는 데이터로 되돌아갑니다 하지만이 테이블 중 하나를 클릭하면 하나는 바로 여기, 그것은 그것을 생산하는 명령을 즉시 가져오고 나는 단지 수정할 수 있습니다 내가 원한다면 좀 더

나는 비뚤어진 것과 첨예 한 것을 원한다고 말한다 그들은 거기에있다 그것은 놀라운 일을 한 다음 여기로 돌아올 수 있습니다 나는 그것을 클릭하면됩니다 플롯에 올 수 있고 그것들을 확장 할 수 있습니다

클릭하면 명령이 나타납니다 그 (것)들은 그들을 만들었다 그것은 일을하는 데 놀랍도록 쉽고 직관적 인 방법입니다 자, 여기있다 JASP에 관한 또 하나의 좋은 점은 온라인에서 정보를 공유 할 수 있다는 것입니다

osfio라는 프로그램을 통해 정말 잘됩니다 그것은 열린 과학 재단을 의미하며, 그것의 웹 주소는 osfio입니다 그래서, 그것이 무엇인지 잠깐 살펴 보겠습니다

여기에 오픈 사이언스 프레임 워크 웹 사이트이며 훌륭한 서비스입니다 무료이며 설계되었습니다 개방적이고, 투명하며, 접근 가능하고, 책임감 있고, 협력적인 연구를 지원하고 정말 그것에 대해 충분한 말을 할 수 없다 이것에 대해 깔끔한 것은 한번 서명하면됩니다 OSF를 위해 당신은 당신 자신의 지역을 만들 수 있고, 나는 나의 것을 가지고있다

나는 그것에 갈 것이다 지금 예를 들어 오픈 사이언스 프레임 워크의 databab 페이지가 있습니다 그리고 내가 뭘했는지 done은이 JASP 분석 버전을 만들고 여기에 저장했습니다 사실, 열어 보겠습니다

JASP에서 JASP를 분석하면 osf에서 어떻게 보이는지 보여 드리겠습니다 먼저, JASP로 돌아 가라 우리가 여기 왔을 때 파일을보고 컴퓨터를 클릭하면됩니다 이 파일을 바탕 화면에 저장했습니다 데스크톱을 클릭하면 다운로드 할 수 있었을 것입니다

이 모든 다른 파일들, DS03_2_4_JASP를 더블 클릭하면 열 수 있습니다 새 창을 열려고하면 같은 데이터 세트로 작업하고있는 것을 볼 수 있습니다 나는 더 많은 분석을했다 나는이 그래프를 가지고있다 상관 관계와 산점도가 있습니다

이리와, 나는 선형 회귀를했다 그리고 우리는 그것을 클릭하면 볼 수 있습니다 그것뿐만 아니라 옵션을 생산하는 명령 나는 특별한 일을하지 않았다 그,하지만 나는 약간의 자신감 간격을했고 그것을 지정했다

그리고 그것은 정말로 위대하다 이 모든 것을 처리하는 방법 빈 영역을 다시 클릭하면 명령이 표시됩니다 나가서 JASP에서 제 출력물을 얻었습니다 그러나 그것을 저장할 때, 나는 OSF에 저장하는 옵션, 실제로이 웹 페이지 osf

io/3t2jg로 이동하면 실제로 내가 수행 한 분석을보고 다운로드 할 수있는 페이지로 갈 수 있어야합니다 한 번 보자 이 페이지입니다 간신히 당신에게 준 주소가 있습니다 당신이 여기에서 볼 수있는 분석은 제가 수행 한 것과 같습니다, 괜찮습니다

그래서 당신이 협력한다면 사람들과 함께 또는 당신이 사람들에게 사물을 보여주고 싶다면, 이것을 할 수있는 훌륭한 방법입니다 모든 것이 바로 그곳에 있습니다 이것은 정적 인 이미지입니다하지만 최고의 사람들은 선택의 여지가 있습니다 원본 파일을 다운로드하여 직접 작업하십시오

당신이 말할 수없는 경우에, 나는 JASP에 대해 열렬히 기대하고있다 여전히 베타 버전으로 성장하고있다 빠르게 SPSS에 대한 무료 오픈 소스 공동 작업으로 실제로 볼 수 있습니다 많은 사람들이 데이터 과학 작업을 훨씬 쉽게 할 수 있다고 생각합니다

나는 JASP를 면밀히 살펴 보길 강력히 권장합니다 "코딩에 대한 토론을 끝내자 및 데이터 과학 "응용 프로그램의 일부를 간단히 살펴보고 다른 일부 소프트웨어 선택 그리고 나는 압도적 인 인상을 받았다는 것을 인정해야 할 것입니다 너무 많은 선택

이제 스프레드 시트, Tableau 및 SPSS 외에도 우리가 이미 이야기 한 JASP에는 그 이상이 있습니다 나는 줄거야 너는 내가 알고있는 것들의 범위와 내가 중요한 것들을 버렸을 것이라고 확신한다 또는 다른 사람들이 정말 좋아하는 것들을 말합니다 그러나 이것들은 몇 가지 일반적인 선택 사항들입니다

덜 일반적이지만 흥미로운 것들 번호 하나, 내가 언급하지 않은 것들의 관점에서 SAS입니다 SAS는 매우 일반적인 분석 프로그램으로, 매우 강력합니다 소지품 사실 제가 배운 첫 번째 프로그램이고 다른 한편으로는 일종의 사용하기가 어렵고 비쌀 수도 있지만 흥미로운 몇 가지 대안이 있습니다

SAS는 또한 SAS University Edition이라는 제품을 가지고 있습니다 학생 인 경우이 제품은 무료입니다 그것이하는 일이 약간 줄어들지 만, 그것이 자유 롭다는 사실입니다 또한 실행됩니다 엄청난 다운로드를하는 가상 머신에서는 SAS를 배우는 좋은 방법입니다

그것이 당신이하고 싶은 무엇인가라면 SAS는 또한 내가 정말 좋아하는 프로그램을 만들었습니다 그렇게 비싼 것은 아니기 때문에 JMP와 그 시각화 소프트웨어라고 불립니다 Tableau를 조금 생각해 봅시다 어떻게 보았습니까? 시각적으로이 작업과 함께 작업하십시오

당신은 물건을 끌 수 있습니다, 그것은 정말 멋진 프로그램입니다 나는 그것을 개인적으로 금지적이라고 생각한다 비싼 근무 분석가들 사이에서 또 다른 매우 일반적인 선택은 Stata와 일부 사람들 Minitab을 사용하십시오 자, 수학적 사람들에게는 MATLAB이 있고 물론 거기에 있습니다

Mathematica 그 자체이지만, 실제로는 프로그램보다는 언어에 가깝습니다 다른쪽에 손, 볼프람; Mathematica를 만든 사람은 우리에게 Wolfram Alpha를주는 사람들이기도합니다 사람들은 iPhone에서 실행할 수 있기 때문에이 통계 응용 프로그램을 생각하지 않습니다 그러나, Wolfram Alpha는 믿을 수 없을만큼 유능하며 특히 프로 계정에 대해 지불하는 경우, 분석, 회귀 모델, 시각화를 포함하여 놀라운 일을 할 수 있습니다 그래서 좀 더 자세히 살펴볼 가치가 있습니다

또한, 필요한 데이터 Wolfram Alpha는 흥미로운 데이터입니다 이제 여러 응용 프로그램 보다 구체적으로 데이터 마이닝에 맞춰 졌으므로 데이터 마이닝을 수행하지 않으려 고합니다 정기적으로, 당신은 알지 못한다 그러나 RapidMiner가 있고 거기에 KNIME와 Orange는 컨트롤 언어이므로 모두 사용하기가 좋습니다 여기서 노트를 스크린으로 드래그하고 라인을 연결하면 어떻게 볼 수 있습니까? 사물들이 지나간다

이 세 가지 모두 무료 또는 무료 버전과 세 가지 그들도 꽤 비슷한 방식으로 작동합니다 기계 학습을위한 BigML도 있습니다 이것은 브라우저 기반이기 때문에 비정상적이며, 서버에서 실행됩니다 무료 버전이 있습니다 전체를 다운로드 할 수는 없지만 BigML을 사용하는 데는 많은 비용이 들지 않으며 매우 친절하고 매우 접근하기 쉬운 프로그램

그렇다면 실제로 설치할 수있는 프로그램 측면에서 자신의 컴퓨터에서 무료로 SOFA 통계를 구할 수 있습니다 통계를 의미합니다 모두를 위해 열려, 그것은 치즈 냄새의 종류의 종류 다 그러나 그것은 좋은 프로그램이다 그리고 나서 1990 년의 웹 페이지는 지난 3 년, 이것은 고생물학의 소프트웨어이고 다른 하나는 손은 매우 일반적인 것들을 수행합니다, 그것은 많은 플랫폼에서 실행되며 정말 강력합니다 물건과 그것은 자유 롭다

그러나 그것은 비교적 알려지지 않다 그리고 비교적 알려지지 않은, 내 마음에 가깝고 소중한 웹 응용 프로그램은 Statcrunch라는 웹 응용 프로그램입니다 하지만 1 년에 6 달러 또는 12 달러의 비용이 들지만, 실제로 저렴합니다 특히 기초 통계와 학습을 위해, 나는 내가 가르치고있는 수업 중 일부에서 사용했다 그리고 만약 당신이 Excel에 깊이 관여하고 있으며 그 환경을 떠나지 못하게된다면, XLSTAT와 같은 추가 기능을 구입할 수 있습니다

XLSTAT는 다양한 통계 기능을 제공합니다 Excel 환경 자체 그것은 선택의 여지가 많고 여기에서 가장 중요한 것입니다 압도 당하지 않는다 선택의 여지가 많지만, 모든 것을 시도 할 필요조차 없습니다

그들의 정말 중요한 질문은 당신과 프로젝트에 가장 적합한 것이 무엇인가하는 것입니다 너는 일하고있어? 그 점에서 고려해야 할 몇 가지 사항이 있습니다 우선 기능성, 실제로 원하는대로하거나 컴퓨터에서 실행하는지 여부 프로그램이 할 수있는 모든 것을 필요로하지는 않습니다 Excel에서 할 수있는 일에 대해 생각할 때 사람들은 아마 사용 가능한 것의 5 %를 사용합니다

두 번째는 사용 편의성입니다 일부 이 프로그램은 다른 프로그램보다 사용하기가 훨씬 쉽습니다 사용하기 쉬운 것들은 좋아해서 "아니, 나는 프로그램 할 필요가있다 왜냐하면 나는 맞춤식 물건이 필요하기 때문이다 " 하지만 나는 사람들의 95 %가 그렇게하지 않는다고 내기를 기꺼이한다

관습이 필요합니다 또한 커뮤니티의 존재 끊임없이 일할 때 당신은 문제를 겪고 그것을 해결하고 온라인을 얻을 수있는 방법을 알지 못합니다 답변을 검색하고 거기에 사람들이있는 커뮤니티가 충분합니다 누가 대답을하고 이런 것들을 토론 했습니까? 그것들은 훌륭합니다

이들 중 일부 프로그램은 매우 중요한 공동체이며 일부는 사실상 존재하지 않습니다 그것은 당신에게 얼마나 중요한지를 결정하는 것입니다 그리고 마침내 당연히 거기에 물론 비용 문제입니다 언급 한 많은 프로그램 중 일부는 무료이며 일부는 매우 유용합니다 싸구려, 일부는 프리미엄 모델을 실행하며 그 중 일부는 극도로 비쌉니다 그래서, 누군가 다른 사람이 그것을 지불하지 않으면 당신은 그들을 사지 않습니다

그래서, 이것들은 다양한 프로그램을 보려고 할 때 명심하고 싶은 것들 또한, 이것을 언급하자 80/20 규칙을 잊지 마세요 너는 할 수있을거야 적은 수의 도구, 하나 또는 두 개의 도구로 수행해야하는 대부분의 작업, 어쩌면 세 가지가 아마도 당신이 필요로하는 모든 것 일 것입니다

그래서, 당신은 가능한 모든 도구의 범위 필요한 것을 찾아 내고 편한 것을 찾으십시오 당신이 할 수있는 한 많은 가치를 추출하려고 노력합니다 따라서, 요약하면 코딩 및 데이터 과학을위한 사용 가능한 응용 프로그램에 대한 토론 응용 프로그램을 먼저 기억하십시오 도구이기 때문에 운전하지 않고 사용합니다

그리고 당신의 목표는 무엇을 선택하게하는지입니다 귀하의 응용 프로그램과 당신이 그것을하는 방식 그리고 가장 중요한 것은 당신을 위해 일하는 것이 기억에 남는다면, 당신이 편안하지 않다면 다른 누군가를 위해 잘 작동 할 것입니다 그것으로, 당신이 다루는 질문이 아니라면, 무엇에 대해서 생각하는 것이 더 중요합니다 자신 만의 선택을 할 때 작업중인 프로젝트와 프로젝트에 효과적입니다

데이터 과학에서 일하는 도구 "데이터 과학에서 코딩"을 할 때 가장 당신이 할 수있는 중요한 일은 웹 데이터로 작업 할 수 있다는 것입니다 그리고 만약 당신이 웹 데이터를 HTML로 작업하게 될 것입니다 그리고 익숙하지 않은 경우 HTML 월드 와이드 웹이 돌아가는 이유입니다 그것이 의미하는 것은 하이퍼 텍스트 마크 업 언어 – 이전에 웹 페이지를 다루지 않았다면 여기에 약간의 비밀이 있습니다

웹 페이지 텍스트 일뿐입니다 텍스트 문서 일 뿐이지 만 태그를 사용하여 문서와 웹 브라우저는 이러한 태그가 무엇인지 알고 있으며, 오른쪽에 표시합니다 방법 예를 들어 태그 중 일부는 다음과 같습니다 그들은 꺾쇠 괄호 안에 있습니다

꺽쇠 괄호가 있고 시작 태그가 있으므로 몸체를가집니다 본문, 텍스트의 주요 부분, 그리고 꺽쇠 괄호 안에 백 슬래시가 있습니다 body를 사용하여 컴퓨터에서 해당 부분을 완료했음을 알립니다 또한 p와 백 슬래시가 있습니다 단락은 p

H1은 머리글 하나에 해당 텍스트 사이에 넣습니다 TD는 테이블 데이터 또는 셀을 테이블에 넣고 그런 식으로 표시합니다 무엇을보고 싶다면 이 문서는 DS03_3_1_HTMLtxt로 보입니다 나는 바로 지금 그곳에 갈 것입니다

지금, 어떤 텍스트 편집기를 열어 놓았 느냐에 따라 실제로 웹 미리보기가 제공 될 수 있습니다 TextMate에서 열어서 실제로 입력 한대로 텍스트를 보여줍니다 나는 이것을 수동으로 입력하십시오 방금 입력 했어 그리고 HTML을 가지고 어떤 문서를 볼 수 있습니까? 나는 빈 헤더를 가지고 있지만, 그런 종류의 존재가 필요하다

이것, 나는 시체가있다, 그리고 나는 약간의 본문을 가지고있다 li은 목록 항목 용이며 헤더가 있습니다 웹 페이지 링크를 클릭하면 작은 표가 나타납니다 그리고이게 어떻게 생겼는지보고 싶다면 웹 페이지로 표시 될 때 여기로 가서 웹 미리보기를 표시하십시오 이것이 동일한 문서이지만, 지금은 브라우저에 있으며 웹 페이지를 만드는 방법입니다

지금 이것이 매우 기본적인 것임을 알아야합니다 그러나 이것이 중요한 이유는 여러분이 웹에서 데이터를 추출하려는 경우 해당 정보가 어떻게 웹에 인코딩되어 있으며 정규 HTML을위한 대부분의 시간 동안 HTML에있게됩니다 웹 페이지 이제 CSS라고하는 또 다른 것이 있습니다 웹 페이지 CSS를 사용하여 문서의 모양을 정의하십시오

HTML은 이론적으로 콘텐츠를 제공합니다 CSS는 외관을 제공합니다 그리고 그것은 Cascading Style Sheets를 의미합니다 나는 가지 않을거야 우리가 실제로 콘텐츠에 관심이 있기 때문에 지금 당장 걱정할 필요가 있습니다

그리고 지금 웹 페이지를 읽고 웹 페이지에서 데이터를 가져올 수있는 열쇠가 있습니다 데이터 과학 프로젝트 그래서, 합계; 먼저 웹은 HTML로 실행되며 이것이 바로 거기있는 웹 페이지 HTML은 페이지 구조와 위에있는 내용을 정의합니다 그 페이지

그리고 태그와 구조를 탐색하는 방법을 알아야합니다 데이터 과학 프로젝트를위한 웹 페이지의 데이터 "코딩 및 데이터"의 다음 단계 과학 "은 웹 데이터로 작업 할 때 XML에 대해 약간 이해하는 것입니다 저는 이것을 웹 데이터의 일부로 생각하고 싶습니다 "데이터, 자신을 정의하십시오

" XML은 eXtensible Markup Language의 약자이며, XML은 반 구조화 된 것입니다 데이터 이것이 의미하는 것은 태그가 데이터를 정의하므로 컴퓨터가 특정 정보의 조각이다 그러나 HTML과 달리 태그는 자유롭게 정의 할 수 있습니다 필요

그리고 당신은 거기에이 엄청난 융통성을 갖지만, 당신은 여전히 컴퓨터가 그것을 읽을 수 있도록 자, 갈 곳이 두 곳 있습니다 XML 파일을 참조하십시오 번호 하나는 웹 데이터에 있습니다 HTML은 웹 페이지의 구조를 정의합니다

그러나 데이터를 데이터에 입력하는 경우 XML 형식이 자주 사용됩니다 파일 흥미롭게도 Microsoft Office 파일은 docx 또는 xlsx 파일 인 경우 X 부분을 end는 이러한 문서를 만드는 데 사용되는 XML 버전을 나타냅니다 사용하는 경우 iTunes, 귀하의 모든 아티스트 및 장르의 라이브러리 정보, 그리고 귀하의 등급 및 물건, 그 모든 XML 파일에 저장됩니다

그리고 마지막으로, 데이터 파일 특정 프로그램과 함께 자주 사용되는 파일은 XML 형식으로 저장 될 수 있습니다 구조를 프로그램에 제공합니다 XML의 경우 태그는 시작 및 종료 각도를 사용합니다 HTML과 같은 괄호 다시 말하지만, 주요 차이점은 자유롭게 정의 할 수 있다는 것입니다

그러나 당신이 원하는 태그 예를 들어 iTunes에 대해 생각해 보면 태그를 정의 할 수 있습니다 그것은 장르입니다 그리고 정보를 시작하려면 장르에 꺾쇠 괄호가 있습니다 백 슬래시와 꺾쇠 괄호를 사용하여 작업 완료를 알 수 있습니다

정보의 또는 작곡가를 위해 할 수도 있고, 평가를 위해 할 수도 있고 할 수도 있습니다 주석을 달아서 원하는 모든 태그를 만들 수 있고 그 사이에 정보를 넣을 수 있습니다 그 두 가지 이제 어떻게 작동하는지 예를 들어 봅시다

나는 너에게 보여줄거야 웹에서 가져 오는 빠른 데이터 세트 ergastcom 및 API에 있으며 이것은 웹 사이트입니다 자동차 포뮬러 원 경주에 대한 정보를 저장합니다

이 웹 페이지로 이동하여 그것이 무엇인지 잠깐 살펴보십시오 그래서, 여기 Ergastcom에 있습니다 포뮬러 원 그리고 제가 가져오고있는 것은 1957 년 시즌의 결과입니다

하나의 경주 그리고 여기에서 경쟁자가 각 종족에 누구인지, 그리고 그들이 어떻게 끝났는지를 볼 수 있습니다 곧 따라서 이것은 웹 페이지에 표시되는 데이터 집합입니다 너가보고 싶으면 XML에서 보이는 것처럼, XML의 마지막에

XML을 입력하면됩니다 나는 이미 그 일을했기 때문에 나는 그걸로 갈 것입니다 보시다시피, 그것은 단지 내가 추가 한이 비트 : XML 이제는 똑같이 보입니다

웹 페이지 기본적으로 XML 데이터를 구조화하고 있지만, XML 데이터가 어떻게 보이는지 알고 싶다면 원시 형식, 옵션을 수행하고 웹 페이지를 클릭 한 다음 페이지 소스로 이동하십시오 적어도 이것이 Chrome에서 작동하는 방식이며 구조화 된 XML 페이지입니다 그리고 너는 볼 수있다 여기에 태그가 있습니다 레이스 이름, 서킷 이름, 위치를 말하며 분명히 이것들은 아닙니다

표준 HTML 태그 이들은이 특정 데이터 세트의 목적을 위해 정의됩니다 하지만 우리는 하나부터 시작하십시오 회로 이름이 있습니다 그런 다음 백 슬래시를 사용하여 회로 이름을 닫습니다

바로 거기 그리고 이것은 구조화 된 데이터입니다 컴퓨터는 그것을 읽는 법을 안다 정확하게, 이것이 디폴트로 표시하는 방법입니다 따라서 데이터를 표시하는 좋은 방법입니다

웹에서 데이터를 가져 오는 방법을 아는 좋은 방법입니다 실제로 사용할 수 있습니다 이 XML 데이터에 액세스하는 API (Application Programming Interface)라고하는 API를 호출하고 그것과 함께 작업하는 구조와 함께하는 것이 정말 쉽습니다 심지어 무엇입니까 XML 데이터를 가져 와서 다른 XML 데이터로 변환하는 것이 얼마나 쉬운 지 더 흥미 롭습니다 포맷이되어 있고 컴퓨터가 당신이 상대하고있는 것을 알고 있기 때문입니다

예를 들어, XML을 CSV 또는 쉼표로 구분 된 값으로 변환하는 것은 정말 쉽습니다 파일 (제목은 정확히 무엇인지 알고 있기 때문에 스프레드 시트 형식 임); 뭐 정보가 각 열에 표시됩니다 예 2 : 변환하기가 정말 쉽습니다 제한된 태그 세트로 HTML을 생각할 수 있기 때문에 HTML 문서를 XML로 변환 할 수 있습니다 훨씬 더 자유로운 XML의 부분 집합

세 번째로 CSV 또는 스프레드 시트를 쉼표로 구분 된 값을 XML로, 그 반대의 경우도 마찬가지입니다 그들을 앞뒤로 바운스 할 수 있습니다 구조는 당신이 작업하고있는 프로그램에 명확 해집니다 그래서 요약하면 다음과 같습니다 우리가 말할 수있는 것

첫째, XML은 반 구조화 된 데이터입니다 그것이 의미하는 바는 태그가 있다는 것입니다 컴퓨터에 정보가 무엇인지 알려주지 만 태그를 만들 수 있습니다 그들이되기를 바란다 XML은 웹 데이터에 매우 일반적이며 번역하기가 쉽습니다

형식 XML / HTML / CSV 등등 다시 번역하기가 쉽습니다 데이터를 조작 할 때 많은 유연성을 제공하므로 형식을 사용할 수 있습니다 당신은 당신의 분석을 위해 필요합니다 마지막으로 "코딩 및 데이터"에 대해 언급하고 싶습니다

과학 "이고 웹 데이터는 JSON이라고하는 것입니다 그리고 저는 그것을 버전으로 생각하고 싶습니다 더 작은 것이 좋습니다 JSON의 약자는 JavaScript Object Notation입니다 JavaScript는 한 단어로되어 있습니다

그리고 그것은 XML과 마찬가지로 JSON은 반 구조화되어 있습니다 데이터 즉, 데이터를 정의하는 태그가 있으므로 컴퓨터는 각 부분의 내용을 알고 있습니다 정보가 있지만 XML과 마찬가지로 태그는 자유롭게 다를 수 있습니다 공통점이 많습니다

XML과 JSON 사이 그래서 XML은 Markup Language입니다 (ML이 의미하는 것입니다) 텍스트에 의미를 부여한다 컴퓨터가 각 정보가 무엇인지 알 수 있습니다 또한, XML을 사용하면 문서에서 주석을 달 수 있으며 메타 데이터를 태그에 넣을 수 있습니다 그래서 꺽쇠 괄호 안에 실제로 정보를 넣어 추가 정보를 제공 할 수 있습니다

문맥 JSON은 데이터 교환을 위해 특별히 설계되었으므로 그 특별한 초점이있어 그리고 구조; JSON은 데이터 구조에 해당합니다 객체와 배열, 숫자와 문자열, 부울을 직접 나타냄을 알 수 있습니다 이는 데이터를 분석하는 데 사용되는 프로그램과 잘 작동합니다

또한 JSON은 일반적으로 닫는 태그가 필요 없기 때문에 XML보다 짧습니다 이제는 할 수있는 방법이 있습니다 그것은 XML과 함께하지만, 일반적으로 어떻게 완료되었는지는 아닙니다 이러한 차이의 결과로, JSON은 기본적으로 웹 데이터에서 XML의 위치를 ​​차지합니다 여전히 존재하는 XML은 여전히 ​​존재합니다

많은 것들이 있지만 JSON은 천천히 그것을 대체하고 있습니다 그리고 우리는 비교를 살펴볼 것입니다 우리가 XML에서 사용한 예제로 돌아가서 세 가지 사이에서 이것은 수식에 관한 데이터입니다 한 자동차는 ergast

com에서 1957 년에 경쟁합니다 첫 번째 웹 페이지로 이동하면됩니다 우리는 다른 것들로 이동합니다 그래서 이것은 일반적인 페이지입니다 당신이

XML 또는 JSON 또는 아무것도 입력하지 않고 입력하십시오 정보의 테이블입니다 인종에 관한 1957 년에 그리고 우리는 이전에

XML을 끝에 추가하는 것으로 추가하면, 그것은 똑같은 것처럼 보입니다 이 브라우저가 XML을 올바르게 표시하기 때문입니다 태만 그러나, 만약 당신이 그것을 오른쪽 클릭하고, 페이지 소스를 보러 간다면, 당신은 대신 이것을 얻으면 구조를 볼 수 있습니다 이것은 여전히 ​​XML이므로 모든 것이 여는 태그와 닫는 태그 및 거기에 몇 가지 추가 정보

그러나 입력 할 경우 JSON 당신이 정말로 얻는 것은이 뒤죽박죽이다 이제 불행한 점이 있습니다 이것에 많은 구조가 있습니다 그래서, 내가 할 일은, 실제로 갈거야

이 모든 데이터를 복사 한 다음 작은 웹 페이지로 이동합니다 많이있다 여기서 할 수있는 일들, 그리고 그 말은 아주 귀엽다 JSON Pretty Print라고합니다 과 즉, 구조적으로 보이게하여 읽기 쉽도록합니다

나는 그걸 거기에 붙여 넣을 뿐이에요 Pretty Print JSON을 누르면 이제 데이터의 계층 적 구조를 볼 수있다 그만큼 흥미로운 점은 JSON 태그는 처음부터 태그 만 가지고 있다는 것입니다 그것은 시리즈를 말한다 따옴표로 묶은 다음 콜론을 입력하면 따옴표로 묶인 정보와 쉼표 다음 단계로 이동합니다

그리고 이것은 데이터가하는 방식과 훨씬 비슷합니다 R이나 Python과 같은 것으로 표현 될 수 있습니다 또한보다 콤팩트합니다 다시 한 번 XML로 할 수있는 일이지만 JSON이 선호되는 이유 중 하나입니다 웹 사이트 용 데이터 통신 업체로 추측했듯이 변환하기가 정말 쉽습니다

형식간에 XML, JSON, CSV 등으로 쉽게 변환 할 수 있습니다 웹 페이지에서 버전을 붙여 넣을 수 있으며 다른 버전을 가져올 수 있습니다 있다 약간의 차이점이 있지만 대다수의 상황에서는 서로 바꿔 사용할 수 있습니다 합계 : 우리는 이것을 어떻게 얻었습니까? XML과 마찬가지로 JSON은 반 구조화 된 데이터로 정보가 무엇인지 말하는 태그이지만 사용자가 원하는대로 태그를 정의 할 수 있습니다

JSON은 데이터 교환을 위해 특별히 설계되었으며 프로그램의 데이터를 사용하면 정말 쉽습니다 또한 비교적 컴팩트하기 때문에 JSON은 점차 웹 페이지의 데이터 컨테이너 인 웹에서 XML을 대체하고 있습니다 만약 우리는 "코딩 및 데이터 과학"과 사용되는 언어에 대해 이야기 할 예정이며, 가장 중요한 것은 R입니다 그 이유는 많은 표준에 따르면 R은 데이터 및 데이터 과학의 언어 예를 들어이 차트를 살펴보십시오 이것은 그들이 수행하는 데 사용하는 소프트웨어의 데이터 마이닝 전문가 설문 조사에 기초한 순위 그들의 일은 R이 정상에있다

R이 가장 먼저, 실제로 중요합니다 왜냐하면 보통 데이터 과학에서 R과 함께 사용되는 파이썬이 있기 때문입니다 그러나 R은 적어도이 특정 목록에서 파이썬이 사용하는 것보다 50 % 더 많이 사용합니다 지금 거기에있다 그 인기에 대한 몇 가지 이유

1 번, R은 무료이고 오픈 소스입니다 둘 다 그중에서 일이 매우 쉽습니다 둘째, R은 벡터 연산을 위해 특별히 개발되었습니다 즉, 'for'를 쓰지 않아도 전체 데이터 목록을 거칠 수 있다는 뜻입니다 통과 할 수있는 루프

'for'루프를 작성해야한다면, 데이터 분석을 통해 그러한 일을해야한다는 비참한 태도를 취하십시오 다음으로, R에는 멋진 커뮤니티가 있습니다 그 뒤에 R로 할 일에 도움을받는 것은 매우 쉽습니다 당신이 좋은 예를 찾을 수있는 곳에서 끝내야합니다

필요한 것 그리고 아마도 가장 중요한 것은 R이 매우 유능하다는 것입니다 R에는 7,000 개의 패키지가 있습니다 능력을 R 기본적으로, 그것은 무엇이든 할 수 있습니다

자, 당신이 R과 함께 일할 때, 실제로 인터페이스를 선택할 수 있습니다 즉, 코딩을 실제로 수행하는 방법과 결과를 얻는 방법 R은 자체 IDE 또는 대화 형 개발 환경과 함께 제공됩니다 그렇게 할 수 있습니다 Mac 또는 Linux를 사용하는 경우 실제로 R을 할 수 있습니다

명령 행을 통해 터미널 R을 설치 한 경우 R을 입력하면 시작됩니다 쪽으로 RStudiocom이라는 매우 유명한 개발 환경도 있습니다

사실 제가 사용하는 것과 제가 모든 예를 위해 사용할 것입니다 그러나 다른 새로운 경쟁자는 Jupyter로, Python에서 매우 일반적으로 사용됩니다 그게 내가 예제에 사용하는거야 그곳에 로컬로 설치된 경우에도 브라우저 창에서 작동합니다

그리고 RStudio 그리고 Jupyter에는 그들 각각에 플러스와 마이너스가 있습니다 그들 각각에게 다가 가라 그러나 어떤 인터페이스를 사용하든 관계없이 R의 명령 행은 명령을 얻기 위해 코드 행을 입력하는 것 어떤 사람들은 그것에 대해 두려워하게됩니다 실제로 복제 가능성과 실제로 복제 가능성 측면에서 이점이 있습니다

접근성, 명령의 투명성 예를 들어, 여기에 간단한 예가 있습니다 R의 명령 중 일부를 콘솔에 입력 할 수 있습니다 한 번에 한 줄만 있으면 대화 형 방식이라고합니다 또는 스크립트를 저장할 수 있습니다

비트와 조각을 선택적으로 실행하면 인생이 훨씬 쉬워집니다 아무리 당신이 그것을 할 수 있습니다, 만약 당신이 다른 언어를 프로그래밍에 익숙하다면 당신은 그 R은 좀 이상해 그것은 특이한 모델을 가지고 있습니다 일단 익숙해지면 말이됩니다 하지만 그것은 다른 접근법이므로 익숙하다면 약간의 적응이 필요합니다

다른 언어로 프로그래밍하는 것 이제 출력을 얻기 위해 프로그래밍을하면, 당신이 얻으려고하는 것은 별도의 창에 그래프입니다 텍스트를 가져올 것입니다 숫자, 콘솔의 숫자 출력, 그리고 무엇을 얻을 지 상관없이, 파일로 출력 따라서 이식성이 뛰어나고 다른 환경에서도 사용할 수 있습니다

하지만 대부분 중요한 것은, 저는 이것을 생각하고 있습니다 여러분이 모르는 초콜렛 상자입니다 당신이 얻으려고하는 것 R의 아름다움은 사용할 수있는 패키지에 있습니다 그 능력을 확장하십시오

이제 R을위한 두 가지 패키지 소스가 있습니다 CRAN의 이름이며 Comprehensive R Archive Network의 약자입니다 cranrstudiocom에 있습니다

그리고 그것이하는 것은 이용할 수 있고 조직하는 7,000 개의 다른 패키지를 필요로합니다 작업보기라고 부르는 항목으로 그리고 각자 숙제를했다면, 패키지와 함께 제공되는 데이터 세트가 있습니다pdf 형식의 설명서가 있습니다 어떻게하는지 보여주는 예를 통해 비 네트를 사용할 수도 있습니다

다른 인터페이스는 Crantastic! 그리고 느낌표는 제목의 일부입니다 그리고 그곳에 있습니다 crantasticorg 그리고 이것이 무엇인지, CRAN에 연결되는 대체 인터페이스입니다

그래서 찾으면 당신이 좋아하는 무언가를 Crantastic! 링크를 클릭하면 열립니다 CRAN 그러나 Crantastic에 관한 멋진 물건! 그것은 패키지의 인기를 보여줍니다, 그리고 또한 최근에 업데이트 된 방법을 보여줍니다 최신의 가장 위대한 일종의 이제 매우 추상적 인 프레젠테이션을 통해 R에 대한 몇 가지 말 : 많은 사람들에 따르면, R은 데이터 과학의 언어입니다

명령 줄 인터페이스입니다 코드 줄을 입력하면 두 줄을 모두 얻을 수 있습니다 어떤 사람들에게는 힘과 도전이됩니다 그러나 아름다운 것은 수천 R에 사용할 수있는 수천 개의 추가 코드 및 기능 패키지, 이 통계 프로그래밍 언어에서 거의 모든 것을 할 수있게하십시오 언제, "코딩 및 데이터 과학"에 대해 이야기하고 R과 함께 언어에 대해 파이썬에 대해 이야기하십시오

자, 파이썬 뱀은 그것을 할 수있는 범용 프로그램입니다 모든 것이 그 아름다움입니다 데이터에서 사용하는 소프트웨어에 대한 설문 조사로 돌아 가면 광산 전문가라면 파이썬이 있고 목록에 3 위를 차지하고 있음을 알 수 있습니다 무엇이 중요한 점은이 목록에서 파이썬은 유일한 범용 프로그래밍입니다 언어 그것은 이론적으로 모든 종류의 개발에 사용될 수있는 유일한 것입니다

당신이 원하는 응용 프로그램 그것은 다른 모든 것들과 비교할 때 특별한 힘을 준다 대부분은 데이터 과학 작업에 매우 특수합니다 파이썬에 대한 좋은 점은 : number 하나, 그것은 일반적인 목적입니다 또한 사용하기 쉽고 매킨토시 또는 리눅스 컴퓨터는 파이썬이 내장되어 있습니다

또한 파이썬에는 멋진 커뮤니티가 있습니다 수십만 명이 참여하고 있으며, 파이썬에는 수천 개의 패키지가 있습니다 현재 실제로 70 또는 80,000 개의 패키지가 있지만 데이터 용 패키지의 측면에서는 아직도 믿을 수없는 기능을 제공하는 수천 가지 가용입니다 몇 파이썬에 대해 알아야 할 것들 첫째, 버전에 관한 것입니다

파이썬에는 두 가지 버전이 있습니다 넓은 순환에있다 : 2x가있다 25, 2

6, 3x와 같은 의미입니다 그래서 31, 32

버전 2와 버전 3은 비슷하지만 동일하지 않습니다 사실, 문제는 이것은 하나의 코드가 실행되지 않는 몇 가지 호환성 문제입니다 다른 하나 따라서 대부분의 사람들은 하나와 다른 것을 선택해야합니다 그리고 뭐 이것은 많은 사람들이 여전히 2

x를 사용한다는 것입니다 나는 그 예들에서 사용하는 데이터 과학 패키지가 너무 많아서 2x를 사용하고 있습니다 그걸 염두에두고 이제 파이썬 용 인터페이스에 대해 몇 가지 말씀 드리겠습니다

첫째, 파이썬 자체 인터랙티브 개발 학습 환경 (Interactive Development Learning Environment)과 함께 제공되며 IDLE이라고합니다 또한 터미널이나 명령 줄 인터페이스 또는 다른 IDE에서 실행할 수도 있습니다 있다 매우 일반적이며 매우 좋은 선택은 Jupyter입니다 Jupyter는 브라우저 기반 프레임 워크입니다

프로그래밍을 위해 그리고 그것은 원래 IPython이라고 불렸다 그것의 초기 역할을 했으므로 많은 사람들이 IPython에 대해 이야기 할 때, 그들이 실제로 이야기하고있는 것들 이 파이썬은 Jupyter에 있으며 두 개는 때때로 같은 의미로 사용됩니다 하나의 당신이 할 수있는 깔끔한 것들에는 Continuum과 Enthought의 두 회사가 있습니다 둘 다 수백, 수백 개의 사전 구성된 Python 배포판을 만들었습니다 데이터로 작업하기가 매우 쉽습니다

개인적으로 Continuum Anaconda를 선호합니다 내가 사용하는 것, 다른 많은 사람들이 사용하는 것이지만 어느 것이 든 작동 할 것입니다 그것은 당신을 일으키고 달릴 것입니다 그리고 R과 마찬가지로, 어떤 인터페이스 당신은 모두 명령 줄입니다 코드 줄을 입력하고 있습니다

다시 한번 말하지만, 엄청난 것이 있습니다 그러나 그 힘은 처음에는 어떤 사람들에게는 협박 할 수 있습니다 실제 측면에서 파이썬의 명령, 여기에 몇 가지 예가 있습니다 중요한 것은 텍스트 인터페이스임을 기억하십시오 반면에 파이썬은 수백만에 익숙합니다

왜냐하면 그것은 종종 사람들이 일반적인 것을 배우는 첫 번째 프로그래밍 언어이기 때문입니다 목적 프로그래밍 데이터를 만드는 데 아주 간단한 방법이 많이 있습니다 그것은 데이터 과학 작업에 매우 강력합니다 다시 말하자면 데이터 과학 Jupyter를 좋아하고 Jupyter는 브라우저 기반 프레임 워크입니다

로컬 설치이지만 웹 브라우저를 통해 액세스하면 정말 훌륭한 작업을 수행 할 수 있습니다 데이터 과학 이것에 대한 몇 가지 이유가 있습니다 Jupyter에서 일할 때 텍스트 출력을 얻을 수 있으며 문서 서식 지정 방법으로 Markdown을 사용할 수 있습니다 그래픽이 코드 바로 아래에 표시되도록 인라인 그래픽을 얻을 수 있습니다

훌륭해 또한 수행 된 분석을 구성, 제시 및 공유하는 것이 매우 쉽습니다 Jupyter에서 어느 것이 당신이 데이터 과학을하는 방식에서 당신의 선택에 대한 강력한 경쟁자가됩니다 프로그램 작성 R과 같이 파이썬에 대한 또 다른 아름다운 것들 중 하나는 패키지 수천 사용할 수 있습니다

파이썬에는 하나의 메인 저장소가 있습니다 그것은 PyPI 이름 파이썬 패키지 색인을위한 것입니다 바로 여기에 8 만 명이 넘는다 패키지 중 7 개 또는 8,000 개는 데이터 관련 용도로 사용됩니다

패키지 중 일부는 과학적 컴퓨팅을위한 NumPy와 SciPy는 매우 익숙해 져야합니다 일반적으로; Matplotlib 및 Seaborn이라 불리는 그 개발은 데이터 시각화를위한 것입니다 및 그래픽 팬더는 통계 분석의 주요 패키지입니다 그리고 기계 용 배우기, 거의 아무것도 scikit-learn를 치지 않는다

그리고 실습 예제를 통해 파이썬, 나는이 모든 것을 프로그램의 힘을 보여주는 방법으로 사용할 것이다 데이터 작업 요약하면 몇 가지를 말할 수 있습니다 : 파이썬은 매우 인기있는 프로그램입니다 수백만 명의 사람들에게 매우 익숙하며 좋은 선택입니다 둘째, 모든 우리는 데이터 과학을 위해 자주 사용하는 언어를 사용합니다 목적

즉, 데이터 처리 이외의 많은 작업에 사용될 수 있습니다 또한 R과 같이 수천 개의 패키지를 제공하는 것에서 그 힘을 얻습니다 특히 데이터 과학 작업의 측면에서 그 기능을 확장하십시오 "코딩 옵션 In Data Science, "라고 말하면서 곧바로 마음에 들지 않는 언어 중 하나인데 데이터 과학이 Sequel 또는 SQL이라고 생각합니다 SQL은 데이터베이스의 언어이며 우리는 생각합니다

"왜 우리는 SQL로 작업하길 원합니까?"글쎄, 유명한 은행 강도 인 윌리 (Willie) 왜 갑자기 왜 은행을 털 었는지 설명하는 갑작스러운 "데이터 과학에서 SQL을 사용하는 이유는 그것이 데이터가 있습니다 데이터 마이닝 중 소프트웨어 순위에 대해 다시 한번 살펴 보겠습니다 전문가 및 SQL이 있습니다 목록의 세 번째 항목과이 목록의 세 번째 항목 또한 첫 번째 데이터베이스 도구 예를 들어, 다른 도구는 훨씬 더 좋아지고 새로운 기능을 제공합니다 shinier,하지만 SQL은 매우 유능한 것으로 잠시 동안 주변에있다

몇 가지가 있습니다 SQL에 대해 알아야합니다 내가 속편이라고 부르는 것을 보더라도 알 수 있습니다 구조화 된 쿼리 언어 SQL은 응용 프로그램이 아닌 언어입니다

프로그램이 없습니다 SQL은 다른 응용 프로그램에서 사용할 수있는 언어입니다 주로 SQL은 관계형 데이터베이스를 위해 설계된 것입니다 그리고 그것들은 구조화 된 구조를 저장하는 특별한 방법입니다 데이터를 가져올 수 있습니다

함께 작업 할 수 있으며, 특수한 방식으로 작업에 참여할 수 있습니다 당신은 요약 통계를 얻을 수 있습니다 그리고 당신이 일반적으로하는 일은 그 데이터를 선택한 분석 응용 프로그램 여기에 큰 단어는 RDBMS입니다 – 관계형 데이터베이스 관리 시스템; 즉, 일반적으로 SQL을 쿼리 언어로 간주합니다 익숙한 관계형 데이터베이스 관리 시스템의 측면에서 볼 때 매우 일반적인 선택 사항이 있습니다

사람들이 쓸 돈이있는 산업계에서는 Oracle 데이터베이스가 있습니다 매우 일반적이며 Microsoft SQL Server입니다 오픈 소스 세계에서는 두 가지 공통점이 있습니다 choices are MySQL, even though we generally say Sequel, when it's here you generally say MySQL Another one is PostgreSQL

These are both open source, free versions of the language; sort of dialects of each, that make it possible for you to working with your databases and for you to get your information out The neat thing about them, no matter what you do, databases minimize data redundancy by using connected tables Each table has rows and columns and they store different levels or different of abstraction or measurement, which means you only have to put the information one place and then it can refer to lots of other tables Makes it very easy to keep things organized and up to date When you are looking into a way of working with a Relational Database Management System, you get to choose in part between using a graphical user interface or GUI

Some of those include SQL Developer and SQL Server Management Studio, two very common choices And there are a lot of other choices such as Toad and some other choices that are graphical interfaces for working with these databases There are also text-based interfaces So really, any command line interface, and any interactive development environment or programming tool is going to be able to do 그 Now, you can think of yourself on the command deck of your ship and think of a few basic commands that are very important for working with SQL

There are just a handful of commands that can get you where you need to go There is the Select command, where you're choosing the cases that you want to include From: says what tables are you going to be extracting them from Where: is a way of specifying conditions, and then Order By: obviously is just a way of putting it all together This works because usually when you are in a SQL database you're just pulling out the information

You want to select it, you want to organize it, and then what you are going to do is you are going to send the data to your program of choice for further analysis, like R or Python or whatever 에서 sum here's what we can say about SQL: Number one, as a language it's generally associated with relational databases, which are very efficient and well-structured ways of storing 데이터 Just a handful of basic commands can be very useful when working with databases You don't have have to be a super ninja expert, really a handful Five, 10 commands will probably get you everything you need out of a SQL database

Then once the data is organized, the data is typically exported to some other program for analysis 때를 talk about coding in any field, one of the languages or one of the groups of languages that come up most often are C, C++, and Java These are extremely powerful applications and very frequently used for professional, production level coding In data science, the place where you will see these languages most often is in the bedrock The absolute fundamental layer that makes the rest of data science possible

For instance, C and C++ C is from the '60s, C++ is from the '80s, and they have extraordinary wide usage, and their major advantage is that they're really really fast In fact, C is usually used as the benchmark for how fast is a language They are also very, very stable, which makes them really well suited to production-level code and, for instance, server use 무엇이 really neat is that in certain situations, if time is really important, if speeds important, then you can actually use C code in R or other statistical languages

Next is Java 자바 is based on C++, it's major contribution was the WORA or the Write Once Run Anywhere The idea that you were going to be able to develop code that is portable to different machines and different environments Because of that, Java is the most popular computer programming language overall against all tech situations The place you would use these in data science, like I said, when time is of the essence, when something has to be fast, it has to get the job accomplished quickly, and it has to not break

Then these are the ones you're probably going to use The people who are going to use it are primarily going to be engineers The engineers and the software developers who deal with the inner workings of the algorithms in data science or the back end of data science The servers and the mainframes and the entire structure that makes analysis possible In terms of analysts, people who are actually analyzing the data, typically don't do hands-on work with the foundational 집단

They don't usually touch C or C++, more of the work is on the front end or closer to the high-level languages like R or Python In sum: C, C++ and Java form a foundational bedrock in the back end of data and data science They do this because they are very fast and they are very reliable On the other hand, given their nature that work is typically reserved for the engineers who are working with the equipment that runs in the back that makes the rest of the analysis possible I want to finish our extremely brief discussion of “Coding in Data Sciences” and the languages that can be used, by mentioning one other that's called Bash

Bash really is a great example of old tools that have survived and are still being used actively and productively with new data You can think of it this way, it's almost like typing on your typewriter You're working at the command line, you're typing out code through a command line interface or a CLI 이 방법 of interacting with computers practically goes back to the typewriter phase, because it predates monitors So, before you even had a monitor, you would type out the code and it would print it out on a piece of paper

The important thing to know about the command line is it's simply a method of interacting It's not a language, because lots of languages can run at the command line For instance, it is important to talk about the concept of a shell In computer science, a shell is a language or something that wraps around the computer It's a shell around the language, that is the interaction level for the user to get things done at the lower level that aren't really human-friendly

On Mac computers and Linux, the most common is Bash, which is short for Bourne Again Shell On Windows computers, the most common is PowerShell But whatever you do there actually are a lot of choices, there's the Bourne Shell, the C shell; which is why I have a seashell right here, the Z shell, there's fish for Friendly Interactive Shell, and a whole bunch of other 선택 Bash is the most common on Mac and Linux and PowerShell is the most common on Windows as a method of interacting with the computer at the command line level 저기있다

a few things you need to know about this You have a prompt of some kind, in Bash, it's a dollar sign, and that just means type your command here Then, the other thing is you type one line at a time It's actually amazing how much you can get done with a one-liner program, by sort of piping things together, so one feeds into the other You can run more complex commands if you use a script

So, you call a text document that has a bunch of things in it and you can get much more elaborate analyses done Now, we have our tools here In Bash we talk about utilities and what these are, are specific programs that accomplish specific tools Bash really thrives on "Do one thing, and do it very well" There are two general categories of utilities for Bash

Number one, is the Built-ins 이들 are the ones that come installed with it, and so you're able to use it anytime by simply calling in their name Some more common ones are: cat, which is for catenate; that's to put information together There's awk, which is it's own interpreted language, but it's often used for text processing from the command line By the way, the name 'Awk' comes from the initials of the people who created it

Then there's grep, which is for Global search with a Regular Expression and Print It's a way of searching for information 그리고 there's sed, which stands for Stream Editor and its main use is to transform text 당신 can do an enormous amount with just these 4 utilities A few more are head & tail, display the first or last 10 lines of a document

Sort & uniq, which sort and count the number of unique answers in a document Wc, which is for word count, and printf which formats the output that you get in your console And while you can get a huge amount of work done with just this small number of built-in utilities, there are also a wide range of installable Or, other command line utilities that you can add to Bash, or whatever programming language 당신이 사용하고 있습니다 So, since some really good ones that have been recently developed are jq: which is for pulling in JSON or JavaScript, object notation data from the web

그리고 there's json2csv, which is a way of converting JSON to csv format, which is what a lot of statistical programs are going to be happy with There's Rio which allows you to run a wide range of commands from the statistical programming language R in the command line as part of Bash And then there's BigMLer This is a command line tool that allows you to access BigML's machine learning servers through the command line Normally, you do it through a web browser and it accesses their servers remote

It's an amazingly useful program but to be able to just pull it up when you're in the command line is an enormous benefit What's interesting is that even though you have all these opportunities, all these different utilities, you can do all amazing things And there's still an active element of utilities for the command line So, in sum: despite being in one sense as old as the dinosaurs, the command line survives because it is extremely well evolved and well suited to its purpose of working with data The utilities; both the built-in and the installable are fast and they are easy

In general, they do one thing and they do it very, very well 과 then surprisingly, there is an enormous amount of very active development of command line utilities for these purposes, especially with data science One critical task when you are Coding in Data Science is to be able to find the things that you are looking for, and Regex (which is short of Regular Expressions) is a wonderful way to do that You can think of it as the supercharged method for finding needles in haystacks Now, Regex tends to look a little cryptic so, for instance, here's an example

As something that's designed to determine if something is a valid email address, and it specifies what can go in the beginning, you have the at sign in the middle, then you've got a certain number of letters and numbers, then you have to have a dot something at the end And so, this is a special kind of code for indicating what can go where Now regular expressions, or regex, are really a form of pattern matching in text And it's a way of specifying what needs to be where, what can vary, and how much it can vary And you can write both specific patterns; 말하다 I only want a one letter variation here, or a very general like the email validator that I showed you

And the idea here is that you can write this search pattern, your little wild card thing, you can find the data and then once you identify those cases, then you export them into another program for analysis So here's a short example of how it can 작업 What I've done is taken some text documents, they're actually the texts to Emma and to Pygmalion, two books I got off of Project Gutenberg, and this is the command Grep ^lve *

txt – so what I'm looking for in either of these books are lines that start with 'l', then they can have one character; can be whatever, then that's followed by 've', and then the txt means search for all the text files in the particular folder And what it found were lines that began with love, and lived, and lovely, and so on 지금 in terms of the actual nuts and bolts of regular expressions, there are some certain elements There are literals, and those are things that are exactly what they mean

You type the letter 'l', you're looking for the letter 'l' There are also metacharacters, which specify, for instance, things need to go here; they're characters but are really code that give representations Now, there are also escape sequences, which is normally this character is used as a variable, but I want to really look for a period as opposed to a placeholder Then you have the entire search expression that you create and you have the target string, the thing that it is searching through So let me give you a few very short examples

^ this is the caret This is the sometimes called a hat or in French, a circonflexe What that means, you're looking for something at the beginning of the search you are searching For example, you can have ^ and capital M, that means you need something that begins with capital M For instance the word “Mac,” true, it will find that

But if you have iMac, it's a capital M, but it's not the first letter and so that would be false, it won't find that The $ means you are looking for something at the end of the string So for example: ing$ that will find the word 'fling' because it ends in 'ing', but it won't find the word 'flings' because it actually ends with an 's' And then the dot, the period, simply means that we are looking for one letter and it can be anything So, for example, you can write 'at

' And that will find 'data' because it has an 'a', a 't', and then one letter after it But it won't find 'flat', because 'flat' doesn't have anything after the 'at' And so these are extremely simple examples of how it can 작업 Obviously, it gets more complicated and the real power comes when you start combining these bits and elements

Now, one interesting thing about this is you can actually treat this as a game I love this website, it's called Regex golf and it's at regexalfnu And what it does is brings up lists of words; two columns, and your job is to write a regular expression in the top, that matches all the words on the left column and none of the words on the right

And uses the fewest characters possible, and you get a score! 그리고 그것은 a great way of learning how to do regular expressions and learning how to search in a way that is going to get you the data you need for your projects So, in sum: Regex, or regular expressions, help you find the right data for your project, they're very powerful and they're very flexible Now, on the other hand, they are cryptic, at least when you first look at them but at the same time, it's like a puzzle and it can be a lot of fun if you practice it and you see how you can find what you need 나는 싶다 thank you for joining me in “Coding in Data Science” and we'll wrap up this course by talking about some of the specific next steps you can take for working in data science

The idea here, is that you want to get some tools and you want to start working with those 도구 Now, please keep in mind something that I've said at another time Data tools and data science are related, they're important but don't make the mistake of thinking that if you know the tools that you have done the same thing as actually conducted data science That's not true, people sometimes get a little enthusiastic and they get a little carried away What you need to remember is the relationship really is this: Data Tools are an important part of data science, but data science itself is much bigger than just the tools

Now, speaking of tools remember there's a few kinds that you can use, and that you might want to get some experience with these #1, in terms of just Apps, specific built applications Excel & Tableau are really fundamental for both getting the data from clients or doing some basic data browsing and Tableau is really wonderful for interactive data visualization I strongly recommend you get very comfortable with both of those 에서 terms of code, it's a good idea to learn either 'R' or 'Python' or ideally to learn both Ideally because you can use them hand in hand

In terms of utilities, it's a great idea to work with Bash, the command line utility and to use regular expression or regex You can actually use those in lots and lots of programs; regular expressions So they can have a very wide application And then finally, data science requires some sort of domain expertise You're going to need some sort of field experience or intimate understanding of a particular domain and the challenges that come up and what constitutes workable answers and the kind of data that's available

Now, as you go through all of this, you don't need to build this monstrous list of things Remember, you don't need everything You don't need every tool, you don't need every function, you don't need every approach Instead remember, get what's best for your needs, and for your style 하지만 아무리 you do, remember that tools are tools, they are a means to an end

Instead, you want to focus on the goal of your data science project whatever it is And I can tell you really, the goal is in the meaning, extracting meaning out of your data to make informed choices In fact, I'll say a little more The goal is always meaning And so with that, I strongly encourage you to get some tools, get started in data science and start finding meaning in the data that's around you

Welcome to “Mathematics in Data Science” I'm Barton Poulson and we're going to talk about how Mathematics matters for data science 지금, you maybe saying to yourself, “Why math?”, and “Computers can do it, I don't need to do it” And really fundamentally, “I don't need math I am just here to do my work” Well, I am here to tell you, No

You need math That is if you want to be a data scientist, and I assume that you do So we are going to talk about some of the basic elements of Mathematics, really at a conceptual level and how they apply to data 과학 There are few ways that math really matters to data science #1, it allows you to know which procedures to use and why

So you can answer your questions in a way that is the most informative and the most useful #2, if you have a good understanding of math, then you know what to do when things don't work right That you get impossible values or things won't compute, and that makes a huge difference And then #3, an interesting thing is that some mathematical procedures are easier and quicker to do by hand then by actually firing up the computer And so for all 3 of these reasons, it's really helpful to have at least a grounding in Mathematics if you're going to do work in data science

Now probably the most important thing to start with in Algebra And there are 3 kinds of algebra I want to mention The first is elementary algebra, that's the regular x+y Then there is Linear or matrix algebra which looks more complex, but is conceptually it is used by computers to actually do the calculations And then finally I am going to mention Systems of Linear Equations where you have multiple equations simultaneously that you're trying to solve

Now there's more math than just algebra A few other things I'm going to cover in this course Calculus, a little bit of Big O or order which has to do with the speed and complexity of operations A little bit of probability theory and a little bit of Bayes or Bayes theorem which is used for getting posterior probabilities and changes the way you interpret the results of an analysis And for the purposes of this course, I'm going to demonstrate the procedures by hand, of course you would use software to do this in the real world, but we are dealing with simple problems at conceptual levels

과 really, the most important thing to remember is that even though a lot of people get put off by math, really You can do it! And so, in sum: let's say these three things about 수학 First off, you do need some math to do good data science It helps you diagnose problems, it helps you choose the right procedures, and interestingly you can do a lot of it by hand, or you can use software computers to do the calculations as well As we begin our discussion of the role of “Mathematics and Data Science”, we'll of course begin with the foundational elements And in data science nothing is more foundational than Elementary Algebra

Now, I'd like to begin this with really just a bit of history In case you're not aware, the first book on algebra was written in 820 by Muhammad ibn Musa al-Khwarizmi And it was called “The Compendious Book on Calculation by Completion and Balancing” Actually, it was called this, which if you transliterate that comes out to this, but look at this word right here That's the algebra, which means Restoration

어쨌든, that's where it comes from and for our concerns, there are several kinds of algebra that we're going to talk about There's Elementary Algebra, there's Linear Algebra and there are systems of linear equations We'll talk about each of those in different videos 그러나 to put it into context, let's take an example here of salaries Now, this is based on real data from a survey of the salary of people employed in data science and to give a simple version of it

The salary was equal to a constant, that's sort of an average value that everybody started with and to that you added years, then some measure of bargaining skills and how many hours they worked per week And that gave you your prediction, but that wasn't exact there's also some error to throw into it to get to the precise value that each person 있다 Now, if you want to abbreviate this, you can write it kind of like this: S + C + Y + B + H + E, although it's more common to write it symbolically like this, and let's go through this equation very quickly The first thing we have is outcome,; we call that y the variable y for person i, “i” stands for each case in our observations So, here's outcome y for person i

This letter here, is a Greek Beta and it represents the intercept or the average, that's why it has a zero, because we don't multiply it times anything But right next to it we have a coefficient for variable 1 So Beta, which means a coefficient, sub 1 for the first variable and then we have variable 1 then x 1, means variable 1, then i means its the score on that variable for person i, whoever we are talking about 그때 we do the same thing for variables 2 and 3, and at the end, we have a little epsilon here with an i for the error term for person i, which says how far off from the prediction was their actual score Now, I'm going to run through some of these procedures and we'll see how they can be applied to data science

But for right now let's just say this in sum First off, Algebra is vital to data science It allows you to combine multiple scores, get a single outcome, do a lot of other manipulations And really, the calculations, their easy for one case at at time Especially when you're doing it by hand

The next step for “Mathematics for Data Science” foundations is to look at Linear algebra or an extension of elementary algebra And depending on your background, you may know this by another name and I like to think welcome to the Matrix Because it's also known as matrix algebra because we are dealing with matrices Now, let's go back to an example I gave in the last video about salary Where salary is equal to a constant plus years, plus bargaining, plus hours plus error, okay that's a way to write it out in words and if you want to put it in symbolic form, it's going to look like this

Now before we get started with matrix algebra, we need to talk about a few new words, maybe you're familiar with them already 첫번째 is Scalar, and this means a single number And then a vector is a single row or a single column of numbers that can be treated as a collection That usually means a variable And then finally, a matrix consists of many rows and columns

Sort of a big rectangle of numbers, the plural of that by the way is matrices and the thing to remember is that Machines love Matrices Now let's take a look at a very simple example of this 이리 is a very basic representation of matrix algebra or Linear Algebra Where we are showing data on two people, on four variables So over here on the left, we have the outcomes for cases 1 and 2, our people 1 and 2

And we put it into the square brackets to indicate that it's a vector or a matrix Here on the far left, it's a vector because it's a single column of values Next to that is a matrix, that has here on the top, the scores for case 1, which I've written as x's X1 is for variable 1, X2 is for variable 2 and the second subscript is indicated that it's for person 1 Below that, are the scores for case 2, the second person

And then over here, in another vertical column are the regression coefficients, that's a beta there that we are using And then finally, we've got a tiny little vector here which contains the error terms for cases 1 and 2 Now, even though you would not do this by hand, it's helpful to run through the procedure, so I'm going to show it to you by hand And we are going to take two fictional people This will be fictional person #1, we'll call her Sophie

We'll say that she's 28 years old and we'll say that she's has good bargaining skills, a 4 on a scale of 5, and that she works 50 hours a week and that her salary is $118,00000 Our second fictional person, we'll call him Lars and we'll say that he's 34 years old and he has moderate bargaining skills 3 out of 5, works 35 hours per week and has a salary of $84,00000 And so if we are trying to look at salaries, we can look at our matrix representation that we had here, with our variables indicated with their Latin and sometimes Greek symbols

과 we will replace those variables with actual numbers We have the salary for Sophie, our first person So why don't we plug in the numbers here and let's start with the result 이리 Sophie's salary is $118,00000 and here's how all these numbers all add up to get that

The first thing here is the intercept And we just multiply that times 1, so that's sort of the starting point, and then we get this number 10, which actually has to do with years over 18 She's 28 so that's 10 years over 18, we multiply each year by 1395 Next is bargaining skills She's got a 4 out of 5 and for each step up you get $5,900

00 By the way, these are real coefficients from study of survey of salary of data scientists And then finally hours per week For each hour, you get $38200

Now you can add these up, and get a predicted value for her but it's a little low It's $30,0000 low Which you may be saying that's pretty messed up, well that's because there's like 40 variables in the equation including she might be the owner and if she's the owner then yes she's going to make a lot more And then we do a similar thing for the second case, but what's neat about matrix algebra or Linear Algebra is this means the same stuff and what we have here are these bolded variables

That stand in for entire vectors or matrices So for instance; this Y, a bold Y stands for the vector of outcome scores This bolded X is the entire matrix of values that each person has on each variable This bolded beta is all of the regression coefficients and then this bolded epsilon is the entire vector of error terms And so it's a really super compact way of representing the entire collection of data and coefficients that you use in predicting values

So in sum, let's say this 먼저 off, computers use matrices They like to do linear algebra to solve problems and is conceptually simpler because you can put it all in there in this type formation 사실로, it's a very compact notation and it allows you to manipulate entire collections of numbers 꽤 쉽게 And that's that major benefit of learning a little bit about linear or matrix algebra

Our next step in “Mathematics for Data Science Foundations” is systems of linear equations And maybe you are familiar with this, but maybe you're not 그리고 idea here is that there are times, when you actually have many unknowns and you're trying to solve for them all simultaneously And what makes this really tricky is that a lot of these are interlocked Specifically that means X depends on Y, but at the same time Y depends on X

What's funny about this, is it's actually pretty easy to solve these by hand and you can also use linear matrix algebra to do it So let's take a little example here of Sales Let's imagine that you have a company and that you've sold 1,000 iPhone cases, so that they are not running around naked like they are in this picture 이리 Some of them sold for $20 and others sold for $5 You made a total of $5,900

00 and so the question is “How many were sold at each price?” Now, if you were keeping our records, but you can also calculate it from this little bit of information And to show you I'm going to do it by hand Now, we're going to start with this 우린 알아 that sales the two price points x + y add up to 1,000 total cases sold And for revenue, we know that if you multiply a certain number times $20 and another number times $5, that it all adds up to $5,900

00 Between the two of those we can figure out the rest 하자 start with sales Now, what I'm going to do is try to isolate the values 나는 가고있다

to do that by putting in this minus y on both sides and then I can take that and I can subtract it, so I'm left with x is equal to 1,000 – y Normally I solve for x, but I solve for y, you'll see why in just a second Then we go to revenue We know from earlier that our sales at these two prices points, add up to $5,90000 total

Now what we are going to do is take the x that's right here and we are going to replace it with the equation we just got, which is 1,000 – y Then we multiply that through and we get $20,00000 minus $20y plus $5 y equals $5,90000 Well, we can subtract these two because they are on the same thing

So, $20y then we get $15y, and then we subtract $20,00000 from both sides So there it is, right there on the left, and that disappears, then I get it over on the right side 과 then I do the math there, and I get minus $14, 10000

Well, then I divide both sides by negative $1500 and when we do that we get y equals 940 Okay, so that's one of our values for sales Let's go back to sales We have x plus y equals 1,000

We take the value we just got, 940, we stick that into the equation, then we can solve for x 다만 subtract 940 from each side, there we go We get x is equal to 60 So, let's put it all together, just to recap what happened What this tells us is that 60 cases were sold at $20

00 each And that 940 cases were sold at $5 each Now, what's interesting about this is you can also do this graphically We're going to draw it So, I'm going to graph the two equations

Here are the original ones we had This one predicts sales, this one gives price The problem is, these aren't in the economical form for creating graphs That needs to be y equals something else, so we're going to solve both of these for 와이 We subtract x from both sides, there it is on the left, we subtract that

그럼 우리는 have y is equals to minus x plus 1,000 That's something we can graph Then we do the same thing for price Let's divide by 5 all the way through, that gets rid of that and then we've got this 4x, then let's subtract 4x from each side And what we are left with is minus 4x plus 1,180, which is also something we can graph

So this first line, this indicates cases sold It originally said x plus y equals 1000, but we rearranged it to y is equal to minus x plus 1000 And so that's the line we have here And then we have another line, which indicates earnings And this one was originally written as $20

00 times x plus $500 times y equals $5,90000 total We rearranged that to y equals minus 4x plus 1,180 그게 the equation for the line and then the solution is right here at the intersection

저기있다 our intersection and it's at 60 on the number of cases sold at $2000 and 940 as the number of cases sold at $500 and that also represents the solution of the joint equations 그 a graphical way of solving a system of linear equations

So in sum, systems of linear equations allow us to balance several unknowns and find unique solutions And in many cases, it's easy to solve by hand, and it's really easy with linear algebra when you use software to do it at the same time As we continue our discussion of “Mathematics for Data Science” and the foundational principles the next thing we want to talk about is Calculus And I'm going to give a little more history right here The reason I'm showing you pictures of stones, is because the word Calculus is Latin for stone, as in a stone used for tallying

Where when people would actually have a bag of stones and they would use it to count sheep or whatever And the system of Calculus was formalized in the 1,600s simultaneously, independently by Isaac Newton and Gottfried Wilhelm Leibniz And there are 3 reasons why Calculus is important for data science #1, it's the basis for most of the procedures we do Things like least squares regression and probability distributions, they use Calculus in getting those answers

Second one is if you are studying anything that changes over time If you are measuring quantities or rates that change over time then you have to use Calculus Calculus is used in finding the maxima and minima of functions especially when you're optimizing 어느 is something I'm going to show you separately Also, it is important to keep in mind, there are two kinds of Calculus

The first is differential Calculus, which talks about rates of change at a specific time It's also known as the Calculus of change The second kind of Calculus is Integral Calculus and this is where you are trying to calculate the quantity of something at a specific time, given the rate of change It's also known as the Calculus of Accumulation So, let's take a look at how this works and we're going to focus on differential Calculus

So I'm going to graph an equation here, I'm going to do y equals x2 a very simple one but it's a curve which makes it harder to calculate things like the slope Let's take a point here that's at minus 2, that's the middle of the red dot X is equal to minus 2 And because y is equal to x2 , if we want to get the y value, all we got to do is take that negative 2 and square it and that gives us 4 So that's pretty 쉬운

So the coordinates for that red point are minus 2 on x, and plus 4 on the y 여기에 a harder question “What is the slope of the curve at that exact point?” Well, it's actually a little tricky because the curve is always curving there's no flat part on 그것 But we can get the answer by getting the derivative of the function Now, there are several different ways of writing this, I am using the one that's easiest to type

And let's start by this, what we are going to do is the n here and that is the squared part, so that we have x2 And you see that same n turns into the squared, and then we come over here and we put that same value 2 in right there, and we put the two in right 이리 And then we can do a little bit of subtraction 2 minus 1 is 1 and truthfully you can just ignore that then then you get 2x That is the derivative, so what we have here is the derivative of x2 is 2x

That means, the slope at any given point in the curve is 2x 그래서, let's go back to the curve we had a moment ago Here's our curve, here's our point at x minus 2, and so the slope is equal to 2x, well we put in the minus 2, and we multiply it and we get minus 4 So that is the slope at this exact point in the curve Okay, what if we choose a different point? Let's say we came over here to x is equal to 3? 잘, the slope is equal to 2x so that's 2 times 3, is equal to 6

Great! And on the other hand, you might be saying to yourself “And why do I care about this?” There's a reason that this is important and what it is, is that you can use these procedures to optimize the decisions And if that seems a little to abstract to you, that means you can use them to make more money And I'm going to demonstrate that in the next video But for right now in sum, let's say this Calculus is vital to practical data science, it's the foundation of statistics and it forms the core that's needed for doing optimization

In our discussion about Mathematics and data science foundations, the last thing I want to talk about right here is calculus and how it relates to optimization 나는 생각하고 싶어한다 of this, in other words, as the place where math meets reality, or it meets Manhattan 또는 뭔가 Now if you remember this graph I made in the last video, y is equal to x2, that shows this curve here and we have the derivative that the slope can be given by 2x And so when x is equal to 3, the slope is equal to 6, fine

And this is where this comes into play Calculus makes it possible to find values that maximize or minimize outcomes And if you want to think of something a little more concrete here, let's think of an example, by the way that's Cupid and Psyche Let's talk about pricing for online dating 하자 assume you've created a dating service and you want to figure out how much can you charge for it that will maximize your revenue

So, let's get a few hypothetical parameters 뒤얽힌 First off, let's say that subscriptions, annual subscriptions cost $50000 each year and you can charge that for a dating service And let's say you sell 180 new subscriptions 매주 On the other hand, based on your previous experience manipulating prices around, you have some data that suggests that for each $5 you discount from the price of $500

00 you will get 3 more sales Also, because its an online service, lets make our life a little more easier right now and assume there is no increase in overhead 정말 아니에요 how it works, but we'll do it for now And I'm actually going to show you how to do all this by hand

Now, let's go back to price first 우리는 이것을 가지고있다 $50000 is the current annual subscription price and you're going to subtract $500 for each unit of discount, that's why I'm giving D

So, one discount is $500, two discounts is $1000 and so on And then we have a little bit of data about sales, that you're currently selling 180 subscriptions per week and that you will add 3 more for each unit of discount that you give So, what we're going to do here is we are going to find sales as a function of price

자, ~에 do that the first thing we have to do is get the y intercept So we have price here, is $50000, is the current annual subscription price minus $5 times d And what we are going to do is, is we are going to get the y intercept by solving when does this equal zero? 괜찮아, well we take the $500 we subtract that from both sides and then we end up with minus $5d is equal to minus $50000

Divide both sides by minus $5 and we are left with d is equal to 100 That is, when d is equal to 100, x is 0 And that tells us how we can get the y intercept, but to get that we have to substitute this value into sales So we take d is equal to 100, and the intercept is equal to 180 plus 3; 180 is the number of new subscriptions per week and then we take the three and we multiply that times our 100 So, 180 times 3 times 100,[1] is equal to 300 add those together and you get 480

And that is the y intercept in our equation, so when we've discounted sort of price to zero then the expected sale is 480 Of course that's not going to happen in reality, but it's necessary for finding the slope of the line So now let's get the slope The slope is equal to the change in y on the y axis divided by the change in x One way we can get this is by looking at sales; we get our 180 new subscriptions per week plus 3 for each unit of discount and we take our information on price

$50000 a year minus $500 for each unit of discount and then we take the 3d and the $5d and those will give us the slope So it's plus 3 divided by minus 5, and that's just minus 06

So that is the slope of the line Slope is equal to minus 06 And so what we have from this is sales as a function of price where sales is equal to 480 because that is the y intercept when price is equal to zero minus 06 times price

So, this isn't the final thing Now what we have to do, we turn this into revenue, there's another stage to this Revenue is equal to sales times price, how many things did you sell and how much did it cost Well, we can substitute some information in here If we take sales and we put it in as a function of price, because we just calculated that a moment ago, then we do a little bit of multiplication and then we get that revenue is equal to 480 times the price minus 0

6 times the price Okay, that's a lot of stuff going on there What we're going to do now is we're going to get the derivative, that's the calculus that we talked about Well, the derivative of 480 and the price, where price is sort of the x, the derivative is simply 480 and the minus 06 times price? 음, 그거야

similar to what we did with the curve And what we end up with is 06 times 2 is equal to 12 times the price This is the derivative of the original equation

We can solve that for zero now, and just in case you are wondering Why do we solve it for zero? 그 때문에 is going to give us the place when y is at a maximum Now we had a minus squared so we have to invert the shape When we are trying to look for this value right here when it's at the very tippy top of the curve, because that will indicate maximum revenue 괜찮아, so what we're going to do is solve for zero

Let's go back to our equation here We want to find out when is that equal to zero? Well, we subtract 480 from each side, there we go and we divide by minus 12 on each side And this is our price for maximum revenue 그래서 we've been charging $500

00 a week, but this says we'll have more total income if we charge $40000 instead And if you want to find out how many sales we can get, currently we have 480 and if you want to know what the sales volume is going to be for that 잘, you take the 480 which is the hypothetical y intercept when the price is zero, but then we put in our actual price of $40000, multiply that, we get 240, do the subtraction and we get 240 total

So, that would be 240 new subscriptions per week So let's compare this 흐름 revenue, is 180 new subscriptions per week at $50000 per year And that means our current revenue is $90,000

00 per year, I know it sounds really good, but we can do better than 그 Because the formula for maximum value is 240 times $40000, when you multiply those you get $96,00000 And so the improvement is just a ratio of those two

$96,00000 divided by $90,00000 is equal to 107 And what that means is a 7% increase and anybody would be thrilled to get a 7% increase in their business simply by changing the price and increasing the overall revenue

So, let's summarize what we found here If you lower the cost by 20%, go from $50000 year to $40000 per year, assuming all of our other information is correct, then you can increase sales by 33%; that's more than the 20 that you had and that increases total revenue by 7% And so we can optimize the price to get the maximum total revenue and it has to do with that little bit of calculus and the derivative of the 기능

So in sum, calculus can be used to find the minima and maxima of functions including prices It allows for optimization and that in turn allows you to make better business decisions Our next topic in “Mathematics and Data Principals”, is something called Big O And if you are wondering what Big O is all about, it is about time 또는 think of it as how long does it take to do a particular operation

It's the speed of the operation If you want to be really precise, the growth rate of a function; how much more it requires as you add elements is called its Order That's why it's called Big O, that's for Order And Big O gives the rate of how things grow as the number of elements grows, and what's funny is there can be really surprising differences 보여 드리죠

you how it works with a few different kinds of growth rates or Big O First off, there's the ones that I say are sort of one the spot, you can get stuff done right away The simplest one is O1, and that is a constant order That's something that takes the same amount of time, 무슨 일이 있어도 You can send an email out to 10,000 people just hit one button; 그 끝난

The number of elements, the number of people, the number of operations, it just takes the same amount of time Up from that is Logarithmic, where you take the number of operations, you get the logarithm of that and you can see it's increased, but really it's only a small increase, it tapers off really quickly So an example is finding an item in a sorted rate 별로 중요하지 않습니다 Next, one up from that, now this looks like a big change, but in the grand scheme, it's not a big change

This is a linear function, where each operation takes the same unit of time So if you have 50 operations, you have 50 units of time If you're storing 50 objects it takes 50 units of space So, find an item in an unsorted list it's usually going to be linear time Then we have the functions where I say you know, you'd better just pack a lunch because it's going to take 잠시

The best example of this is called Log Linear You take the number of items and you multiply that number times the log of the items An example of this is called a fast Fourier transform, which is used for dealing for instance with sound or anything that sort of is over time You can see it takes a lot longer, if you have 30 elements your way up there at the top of this particular chart at 100 units of time, or 100 units of space or whatever you want to put it And it looks like a lot

But really, that's nothing compared to the next set where I say, you know you're just going to be camping out you may as well go home That includes something like the Quadratic You square the number of elements, you see how that kind of just shoots straight up That's Quadratic 성장 And so multiplying two n-digit numbers, if you're multiplying two numbers that have 10 digit numbers it's going to take you that long, it's going to take a long time

Even more extreme is this one, this is the exponential, two raised to the power to the number of items you have You'll see, by the way, the red line does not even go all the way to the top That's because the graphing software that I'm using, doesn't draw it when it goes above my upper limit there, so it kind of cuts it off But this is a really demanding kind of thing, it's for instance finding an exact solution for what's called the Travelling Salesman Problem, using dynamic programming That's an example of exponential rate of growth

And then one more I want to mention which is sort of catastrophic is Factorial You take the number of elements and you raise that to the exclamation point Factorial, and you see that one cuts off very soon because it basically goes straight up You have any number of elements of any size, it's going to be hugely demanding And for instance if you're familiar with the Travelling Salesman Problem, that's trying to find the solution through the brute force search, it takes a huge amount of time And you know before something like that is done, you're probably going to turn to stone and wish you'd never even started

The other thing to know about this, is that not only do something's take longer than others, some of these methods and some functions are more variable than others 그래서 for instance, if you're working with data that you want to sort, there are different kinds of sort or sorting methods So for instance, there is something called an insertion sort And when you find this on its best day, it's linear It's O of n, that's not bad

에 the other hand the average is Quadratic and that's a huge difference between the two Selection sorts on the other hand, the best is quadratic and the average is quadratic It's always consistent, so it's kind of funny, it takes a long time, but at least you know how long it's going to take versus the variability of something like an insertion sort So in sum, let me say a few things about Big O #1, You need to know that certain functions or procedures vary in speed, and the same thing applies to making demands on a computer's memory or storage space or whatever

They vary in their demands Also, some are inconsistent Some are really efficient sometimes and really slow or difficult the others Probably the most important thing here is to be aware of the demands of what you are doing That you can't, for instance, run through every single possible solution or you know, your company will be dead before you get an answer

So be mindful of that so you can use your time well and get the insight you need, in the time that you need it A really important element of the “Mathematics and Data Science” and one of its foundational principles is Probability Now, one of the things that Probability comes in intuitively for a lot of people is something like rolling dice or looking at sports outcomes And really the fundamental question of what are the odds of something That gets at the heart of Probability

지금 let's take a look at some of the basic principles We've got our friend, Albert Einstein here 사물을 설명하기 The Principles of Probability work this way Probabilities range from zero to 1, that's like zero percent to one hundred percent chance When you put P, then in parenthesis here A, that means the Probability of whatever is in parenthesis

So P(A), means the Probability of A and then P(B) is the Probability of B When you take all of the probabilities together, you get what is called the probability Space And that's why we have S and that all adds up to 1, because you've now covered 100 % of the possibilities Also you can talk about the compliment

The tilde here is used to say the probability of not A is equal to 1 minus the probability of A, because those have to add up So, let's take a look at something also that conditional probabilities, which is really important in statistics 에이 conditional probability is the probability that something if something else is true You write it this way: the probability of, and that vertical line is called a Pipe and it's read as assuming that or given that So you can read this as the probability of A given B, is the probability of A occurring if B is true

So you can say for instance, what's the probability if something's orange, what's the probability that it's a caret given this picture Now, the place that this comes in really important for a lot of people is the probability of type one and type two errors in hypothesis testing, which we'll mention at some other point But I do want to say something about arithmetic with probabilities because it does not always work out the way people think it will 하자 start by talking about adding probabilities Let's say you have two events A and B, and let's say you want to find the probabilities of either one of those events

그래서 그건 like adding the probabilities of the two events Well, it's kind of easy You take the probability of event A and you add the probability of event B, however you may have to subtract something, you may have to subtract this little piece because maybe there are some overlap between the two of them On the other hand if A and B are disjoined, meaning they never occur together, then that's equal to zero And then you can subtract zero which is just, you get back to the original probabilities

Let's take a really easy example of this I've created my super simple sample space I have 10 shapes I have 5 squares on top, 5 circles on the bottom and I've got a couple of red shapes on the right side 의 말을하자 we want to find the probability of a square or a red shape So we are adding the probabilities but we have to adjust for the overlap between the two

Well here's our squares on top 5 out of the 10 are squares and over here on the right we have two red shapes, two out of 10 Let's go back to our formula here and let's change a little bit Change the A and the B to S and R for square and red Now we can start this way, let's get the probability that something is a square

Well, we go back to our probability space and you see we have 5 squares out of 10 shapes total So we do 5 over 10, that reduces to 5 괜찮아, next up the probability of something red in our sample space Well, we have 10 shapes total, two of them on the far right are red

That's two over 10, and you do the division get2 Now, the trick is the overlap between these two categories, do we have anything that is both square and red, because we don't want to count that twice we have to subtract 그것 Let's go back to our sample space and we are looking for something that is square, there's the squares on top and there's the things that are red on the side 그리고 너 see they overlap and this is our little overlapping square

So there's one shape that meets both of those, one out of 10 So we come back here, one out of 10, that reduces to 1 and then we just do the addition and subtraction here5 plus

2 minus 1, gets us 6 과 so what that means is, there is a 60% chance of an object being square or red 그리고 너 can look at it right here

We have 6 shapes outlined now and so that's the visual interpretation that lines up with the mathematical one we just did Now let's talk about multiplication for Probabilities Now the idea here is you want to get joint probabilities, so the probability of two things occurring together, simultaneously And what you need to do here, is you need to multiply the probabilities And we can say the probability of A and B, because we are asking about A and B occurring together, a joint occurrence

And that's equal to the probability of A times the probability of B, that's easy But you do have to expand it just a little bit because you can have the problem of things overlapping a little bit, and so you actually need to expand it to a conditional probability, the probability of B given A Again, that's that vertical pipe there On the other hand, if A and B are independent and they never co-occur, or B is no more likely to occur if A happens, then it just reduces to the probability of B, then you get your slightly simpler equation But let's go and take a look at our sample space here

So we've got our 10 shapes, 5 of each kind, and then two that are red And we are going to look at originally, the probability of something being square or red, now we are going to look at the probability of it being square and red Now, I know we can eyeball this one real easy, but let's run through the math The first thing we need to do, is get the ones that are square 저기있다

those 5 on the top and the ones that are red, and there's those two on the right 측면에서 of the ones that are both square and red, yes obviously there's just this one red square at the top right But let's do the numbers here We change our formula to be S and R for square and red, we get the probability of square Again that's those 5 out of 10, so we do 5/10, reduce this to

5 And then we need the probability of red given that it's a square So, we only need to look at the squares here There's the squares, 5 of them, and one of them is red So that's 1 over 5

That reduces to 2 You multiply those two numbers; 5 times 2, and what you get is

10 or 10% chance or 10 percent of our total sample space is red squares And you come back and you look at it and you say yeah there's one out of 10 So, that just confirms what we are able to do intuitively So, that's our short presentation on probabilities and in sum what did we get out of that? #1, Probability is not always intuitive And also the idea that conditional values can help in a lot of situations, but they may not work the way you expect them to

And really the arithmetic of Probability can surprise people so pay attention when you are working with it so you can get a more accurate conclusion in your own calculations Let's finish our discussion of “Mathematics and Data Science” and the basic principles by looking at something called Bayes' theorem And if you're familiar with regular probability and influential testing, you can think of Bayes' theorem as the flip side of the coin You can also think of it in terms of intersections So for instance, standard inferential tests and calculations give you the probability of the data; that's our d, given the hypothesis

So, if you assume a known hypothesis is true, this will give you the probability of the data arising by 기회 The trick is, most people actually want the opposite of that They want the probability of the hypothesis given the data And unfortunately, those two things can be very different in many circumstances On the other hand, there's a way of dealing with it, Bayes does it and this is our guy right here

Reverend Thomas Bayes, 18th Century English minister and statistician He developed a method for getting what he called posterior probabilities that use as prior probabilities And test information or something like base rates, how common something overall to get the posterior or after the fact Probability Here's the general recipe to how this works: You start with the probability of the data given the hypothesis which is what you get from the likelihood of the data You also get that from a standard inferential 테스트

To that, you need to add the probability to the hypothesis or the cause of being true That's called the prior or the prior probability To that you add the D; the probability of the data, that's called the marginal probability And then you combine those and in a special way to get the probability of the hypothesis given the data or the posterior probability Now, if you want to write it as an equation, you can write it in words like this; 후부 is equal to likelihood times prior divided by marginal

You can also write it in symbols like this; the probability of H given D, the probability of the hypothesis given the data, that's the posterior probability Is equal to the probability of the data given the hypothesis, that the likelihood, multiplied by the probability of the hypothesis and divided by probability of the data overall But this is a lot easier if we look at a visual version of it 그래서, let's go this example here Let's say we have a square here that represents 100% of all people and we are looking at a medical condition

And what we are going to say here is that we got this group up here that represents people who have a disease, so that's a portion of all people And that what we say, is we have a test and people with the disease, 90% of them will test positive, so they're marked in red Now it does mean over here on the far left people with the disease who test negative that's 10% Those are our false negatives And so if the test catches 90% of the people who have the disease, that's good right? Well, let's look at it this way

Let me ask y0u a basic question “If a person tests positive for a disease, then what is the probability they really have the disease?” And if you want a hint, I'm going to give you one It's not 90%, 여기에 how it goes So this is the information I gave you before and we've got 90% of the people who have the disease; that's a conditional probability, they test positive

근데 뭐 about the other people, the people in the big white area below, 'of all people' We need to look at them and if any of them ever test positive, do we ever get false positives and with any test you are going to get false positives And so let's say our people without the disease, 90% of them test negative, the way they should But of the people who don't have the disease, 10% of them test positive, those are false positives And so if you really want to answer the question, “If you test positive do you have the disease?”, here's what you need

What you need is the number of people with the disease who test positive divided by all people who test positive Let's look at it this way So here's our information We've got 297% of all people are in this darker red box, those are the people who have the disease and test positive, alright that's good

Then we have 67% of the entire group, that's the people without the disease who test positive So we want to do, we want the probability of the disease what percentage have the disease and test positive and then divide that by all the people that test positive And that bottom part is made up of two things That's made up of the people who have the disease and test positive, and the people who don't have the disease and test positive

Now we can take our numbers and start plugging them in Those who have the disease and test positive that's 297% of the total population 모두의 We can also put that number right here That's fine, but we also need to look at the percentage that do not have the disease and test positive; of the total population, that's 6

7% So, we just need to rearrange, we add those two numbers on the bottom, we get 364% and we do a little bit of division And the number we get is 816%, here's what that means

A positive test result still only means a probability of 816% of having the disease So, the test is advertised at having 90% accuracy, well if you test positive there's really only a 82% chance you have the disease Now that's not really a big difference But consider this: what if the numbers change? 예를 들어, what if the probability of the disease changes? Here's what we originally had

움직여 보자 it around a little bit Let's make the disease much less common And so now what we do, we are going to have 45% of all people are people who have the disease and test positive

과 then because there is a larger number of people who don't have the disease, we are going to have a relatively larger proportion of false positives Again, compared to the entire population it's going to be 95% of everybody So we are going to go back to our formula here in words and start plugging in the numbers We get 4

5% right there, and right there And then we add in our other number, the false positives that's 95% Well, we rearrange and we start adding things up, that's 14% and when we divide that, we get 321%

여기에 what that number means That means a positive test result; you get a positive test result, now means you only have a probability of 321% of having the disease That's ? less than the accuracy of 90%, and in case you can't tell, that's a really big difference 과 that's why Bayes theorem matters, because it answers the questions that people want and the answer can be dramatically different depending on the base rate of the thing you are talking about

And so in sum, we can say this Bayes theorem allows you to answer the right question, people really want to know; what's the probability that I have the disease What's the probability of getting a positive if I have the disease They want to know whether they have the disease And to do this, you need to have prior probabilities, you need to know how common the disease is, you need to know how many people get positive test results overall

But, if you can get that information and run them through it can change your answers and really the emotional significance of what you're dealing with dramatically Let's wrap up some of our discussion of “Mathematics and Data Science” and the data principles and talk about some of the next steps Things you can do afterwards Probably the most important thing is, you may have learned about math a long time ago but now it's a good time to dig out some of those books and go over some of the principles you've used before The idea here is that a little math can go a long way in data science

So, things like Algebra and things like Calculus and things like Big O and Probability 모든 of those are important in data science and its helpful to have at least a working understanding of each You don't have to know everything, but you do need to understand the principles of your procedures that you select when you do your projects There are two reasons for that very generally speaking First, you need to know if a procedure will actually answer your question

Does it give you the outcome that you need? Will it give you the insight that you need? Second; really critical, you need to know what to do when things go wrong Things don't always work out, numbers don't always add up, you got impossible results or things just aren't responding You need to know enough about the procedure and enough about the mathematics behind it, so you can diagnose the problem, and respond appropriately And to repeat myself once again, no matter what you're working on in data science, no matter what tool you're using, what procedure you're doing, focus on your goal 그리고 case you can't remember that, your goal is meaning

Your goal is always meaning 환영 to “Statistics in Data Science” I'm Barton Poulson and what we are going to be doing in this course is talking about some of the ways you can use statistics to see the unseen To infer what's there, even when most of it's hidden Now this shouldn't be surprised

If you remember the data science Venn Diagram we talked about a while ago, we have math up here at the top right corner, but if you were to go to the original description of this Venn Diagram, it's full name was math and stats And let me just mention something in case it's not completely obvious about why statistics matters to data science 과 the idea is this; counting is easy It's easy to say how many times a word appears in a document, it's easy to say how many people voted for a particular candidate in one part of the country Counting is easy, but summarizing and generalizing those things 단단한

And part of the problem is there's no such thing as a definitive analysis 모든 analyses really, depend on the purposes that you're dealing with So as an example, let me give you a couple of pairs of words and try to summarize the difference between them in just two or three words In a word or two, how is a souffle different from a quiche, or how is an Aspen different from a Pine tree? Or how is Baseball different from Cricket? And how are musicals different from opera? It really depends on who you are talking to, it depends on your goals and it depends on the shared knowledge And so, there's not a single definitive answer, and then there's the matter of generalization

생각 해봐 it again, take music Listen to three concerti by Antonio Vivaldi, and do you think you can safely and accurately describe all of his music? Now, I actually chose Vivaldi on purpose because even Igor Stravinsky said you could, he said he didn't write 500 concertos he wrote the same concerto 500 times But, take something more real world like politics 만약 you talk to 400 registered voters in the US, can you then accurately predict the behavior of all of the voters? There's about 100 million voters in the US, and that's a matter of generalization

That's the sort of thing we try to take care of with inferential statistics Now there are different methods that you can use in statistics and all of them are described to give you a map; a description of the data you're working on There are descriptive statistics, there are inferential statistics, there's the inferential procedure Hypothesis testing and there's also estimation and I'll talk about each of those in more depth 있다 a lot of choices that have to be made and some of the things I'm going to discuss in detail are for instance the choice of Estimators, that's different from estimation 다른 measures of fit

Feature selection, for knowing which variables are the most important in predicting your outcome Also common problems that arise when trying to model data and the principles of model validation But through this all, the most important thing to remember is that analysis is functional It's designed to serve a particular purpose And there's a very wonderful quote within the statistics world that says all models are wrong

모든 statistical descriptions of reality are wrong, because they are not exact depictions, they are summaries but some are useful and that's from George Box And so the question is, you're not trying to be totally, completely accurate, because in that case you just wouldn't do an analysis The real question is, are you better off not doing your analysis than not doing it? And truthfully, I bet you are So in sum, we can say three things: #1, you want to use statistics to both summarize your data and to generalize from one group to another 가능하다면 On the other hand, there is no “one true answer” with data, you got to be flexible in terms of what your goals are and the shared knowledge

And no matter what your doing, the utility of your analysis should guide you in your decisions 첫 번째 we want to cover in “Statistics in Data Science” is the principles of exploring data and this video is just designed to give an exploration overview So we like to think of it like this, the intrepid explorers, they're out there exploring and seeing what's in 세계 You can see what's in your data, more specifically you want to see what your dataset is like You want to see if your assumptions are right so you can do a valid analysis with your procedure

Something that may sound very weird, but you want to listen to your data Something's not work out, if it's not going the way you want, then you're going to have to pay attention and exploratory data analysis is going to help you do that Now, there are two general approaches to this First off, there's a graphical exploration, so you use graphs and pictures and visualizations to explore your data The reason you want to do this is that graphics are very dense in information

They're also really good, in fact the best to get the overall impression of your data Second to that, there is numerical 탐구 I make it very clear, this is the second step Do the visualization first, then do the numerical part Now you want to do this, because this can give greater precision, this is also an opportunity to try variations on the data

You can actually do some transformations, move things around a little bit and try different methods and see how that effects the results, 어떻게 보이는지 보아라 So, let's go first to the graphical part They are very quick and simple plots that you can do Those include things like bar charts, histograms and scatterplots, very easy to make and a very quick way to getting to understand the variables in your 데이터 세트 In terms of numerical analysis; again after the graphical method, you can do things like transform the data, that is take like the logarithm of your numbers

넌 할 수있어 Empirical estimates of population numbers, and you can use robust methods 그리고 나는 talk about all of those at length in later videos But for right now, I can sum it up 이 방법 The purpose of exploration is to help you get to know your data And also you want to explore your data thoroughly before you start modelling, before you build statistical 모델

And all the way through you want to make sure you listen carefully so that you can find hidden or unassumed details and leads in your data As we move in our discussion of “Statistics and Exploring Data”, the single most important thing we can do is Exploratory 제도법 In the words of the late great Yankees catcher Yogi Berra, “You can see a lot by just looking” And that applies to data as much as it applies to baseball Now, there's a few reasons you want to start with graphics

#1, is to actually get a feel for the data I mean, what's it distributed like, what's the shape, are there strange things going 에 Also it allows you to check the assumptions and see how well your data match the requirements of the analytical procedures you hope to use You can check for anomalies like outliers and unusual distributions and errors and also you can get suggestions If something unusual is happening in the data, that might be a clue that you need to pursue a different angle or do a deeper analysis

Now we want to do graphics first for a couple of reasons #1, is they are very information dense, and fundamentally humans are visual It's our single, highest bandwidth way of getting information It's also the best way to check for shape and gaps and outliers There's a few ways that you can do this if you want to and the first is with programs that rely on code

So you can use the statistical programming language R, the general purpose language Python You can actually do a huge amount in JavaScript, especially D3JS Or you can use Apps, that are specifically designed for exploratory analysis, that includes Tableau both the desktop and public versions, Qlik and even Excel is a good way to do this And finally you can do this by hand John Tukey who's the father of Exploratory Data Analysis, wrote his seminal book, a wonderful book where it's all hand graphics and actually it's a wonderful way to do it

But let's start the process for doing these graphics We start with one variable That is univariate distributions And so you'll get something like this, the fundamental chart is the bar chart This is when you are dealing with categories and you are simply counting however many cases there are in each category

The nice thing about bar charts is they are really easy to read Put them in descending order and may be have them vertical, maybe have them horizontal Horizontal could be nice to make the labels a little easier to read This is about psychological profiles of the United States, this is real 데이터 We have most states in the friendly and conventional, a smaller amount in the temperamental and uninhibited and the least common of the United States is relaxed and creative

Next you can do a Box plot, or sometimes called a box and whiskers plot 이것은 you have a quantitative variable, something that's measured and you can say how far apart scores are A box plot shows quartile values, it also shows outliers So for instance this is google searches for modern dance That's Utah at 5 standard deviations above the national average

That's where I'm from and I'm glad to see that there 또한, it's a nice way to show many variables side by side, if they are on proximately similar scales Next, if you have quantitative variables, you are going to want to do a histogram 다시, quantitative so interval or ratio level, or measured variables And these let you see the shape of a distribution and potentially compare many

So, here are three histograms of google searches on Data Science, and Entrepreneur and Modern Dance And you can see, mostly for the part normally distributed with a couple of outliers Once you've done one variable, or the univariate analyses, you're going to want to do two variables at a time 그 is bivariate distributions or joint distributions Now, one easy way to do this is with grouped plots

You can do grouped bar charts and box plots What I have here is grouped box plots I have my three regions, Psychological Regions of the United States and I'm showing how they rank on openness that's a psychological characteristic As you can see, the relaxed and creative are high and the friendly conventional tend to go to the lowest and that's kind of how that works It's also a good way of seeing the association between a categorical variable like region of the United States psychologically, and a quantitative outcome, which is what we have here with openness

Next, you can also do a Scatterplot 그게 where you have quantitative variables and what you're looking for here is, is it a straight line? Is it linear? Do we have outliers? And also the strength of association 방법 closely do the dots all come to the regression line that we have here in the middle 과 this is an interesting one for me because we have openness across the bottom, so more open as you go to the right and agreeableness And what you can see is there is a strong downhill association

The states and the states that are the most open are also the least agreeable, so we're going to have to do something about that And then finally, you're going to want to go to many variables, that is multivariate distributions Now, one big question here is 3D or not 3D? Let me make an argument for not 3D So, what I have here is a 3D Scatterplot about 3 variables from Google searches Up the left, I have FIFA which is for professional soccer

Down there on the bottom left, I have searches for the NFL and on the right I have searches for NBA Now, I did this in R and what's neat about this is you can click and drag and move it around And you know that's kind of fun, you kind of spin around and it gets kind of nauseating as you look at it And this particular version, I'm using plotly in R, allows you to actually click on a point and see, let me see if I can get the floor in the right place You can click on a point and see where it ranks on each of these characteristics

You can see however, this thing is hard to control and once it stops moving, it's not much fun and truthfully most 3D plots I've worked with are just kind of nightmares They seem like they're a good idea, but not really So, here's the deal 3D graphics, like the one I just showed you, because they are actually being shown in 2D, they have to be in motion for you to tell what is going on at all 과 fundamentally they are hard to read and confusing

Now it's true, they might be useful for finding clusters in 3 dimensions, we didn't see that in the data we had, but generally I just avoid them like the plague What you do want to do however, is see the connection between the variables, you might want to use a matrix of plots This is where you have for instance many quantitative variables, you can use markers for group membership if you want, and I find it to be much clearer than 3D So here, I have the relationship between 4 search terms: NBA, NFL, MLB for Major League Baseball and FIFA 너는 볼 수있어 the individual distributions, you can see the scatterplots, you can get the correlation

Truthfully for me this is a much easier chart to read and you can get the richness that we need, from a multidimensional display So the questions you're trying to answer overall are: Number 1, Do you have what you need? Do you have the variables that you need, do you have the ability that you need? Are there clumps or gaps in the distributions? 거기 있어요 exceptional cases/anomalies that are really far out from everybody else, spikes in the scores? And of course are there errors in the data? Are there mistakes in coding, did people forget to answer questions? Are there impossible combinations? And these kinds of things are easiest to see with a visualization that really kind of puts it there in front of you And so in sum, I can say this about graphical exploration of data It's a critical first step, it's basically where you always want to start And you want to use the quick and easy methods, again

Bar charts, scatter plots are really easy to make and they're very easy to understand And once you're done with the graphical exploration, then you can go to the second step, which is exploring the data through numbers The next step in “Statistics and Exploring Data” is exploratory statistics or numerical exploration of data I like to think of this, as go in order First, you do visualization, then you do the numerical 부품

And a couple of things to remember here #1, you are still exploring the data 너는 not modeling yet, but you are doing a quantitative exploration This might be an opportunity to get empirical estimates, that is of population parameters as opposed to theoretically based 사람 It's a good time to manipulate the data and explore the effect of manipulating the data, looking at subgroups, looking at transforming variables

Also, it's an opportunity to check the sensitivity of your results Do you get the same general results if you test under different circumstances So we are going to talk about things like Robust Statistics, resampling data and transforming data So, we'll start with Robust Statistics This by the way is Hercules, a Robust mythical character

And the idea with robust statistics is that they are stable, is that even when the data varies in unpredictable ways you still get the same general impression This is a class of statistics, it's an entire category, that's less affected by outliers, and skewness, kurtosis and other abnormalities in the data So let's take a quick look This is a very skewed distribution that I 만들어진 The median, which is the dark line in the box, is right around one

And I am going to look at two different kinds of robust statistics, The Trimmed Mean and the Winsorized Mean With the Trimmed mean, you take a certain percentage of data from the top and the bottom and you just throw it away and compute for the rest With the Winsorized, you take those and you move those scores into the highest non-outlier score Now the 0% is exactly the same as the regular mean and here it's 124, but as we trim off or move in 5%, the mean shifts a little bit

Then 10 % it comes in a little bit more to 25%, now we are throwing away 50% of our data 25% on the top and 25% on the bottom And we get a trimmed mean of 103 and a winsorized of 107

When we throw away 50% or we trim 50%, that actually means we are leaving just the median, only the middle scores left Then we get 101 What's interesting is how close we get to that, even when we have 50% of the data left, and so that's an interesting example of how you can use robust statistics to explore data, even when you have things like strong skewness Next is the principle of resampling

그리고 그것은 like pulling marbles repeatedly from the jar, counting the colors, putting them back in and trying again That's an empirical estimate of sampling variability So, sometimes you get 20% red marbles, sometimes you get 30, sometimes you get 22 and so on 있다 several versions for this, they go by the name jackknife, the bootstrap the permutation And the basic principle of resampling is also key to the process of cross-validation, I'll have more to say about validation later

And then finally there's transforming variables Here's our caterpillars in the process of transforming into butterflies But the idea here, is that you take a difficult data set and then you do what's called a smooth function There's no jumps in it, and something that allows you to preserve the order and work on the full dataset So you can fix skewed data, and in a scatter plot you might have a curved line, you can fix that

And probably the best way to look at this is probably with something called Tukey's ladder of powers I mentioned before John Tukey, the father of exploratory data analysis He talked a lot about data transformations This is his ladder, starting at the bottom with the -1, over x2, up to the top with x3 Here's how it works, this distribution over here is a symmetrical normally distributed variable, and as you start to move in one direction and you apply the transformation, take the square root you see how it moves the distribution over to one end

Then the logarithm, then you get to the end then you get to this minus 1 over the square of the score And that pushes it way way, way over If you go the other direction, for instance you square the score, it pushes it down in the one direction and then you cube it and then you see how it can move it around in ways that allow you to, you can actually undo the skewness to get back to a more centrally distributed distribution And so these are some of the approaches that you can use in the numerical distribution of data In sum, let's say this: statistical or numerical exploration allows you to get multiple perspectives on your data

It also allows you to check the stability, see how it works with outliers, and skewness and mixed distributions and so on And perhaps most important it sets the stage for the statistical modelling of your data As a final step of “Statistics and Exploring Data”, I'm going to talk about something that's not usually exploring data but it is basic descriptive 통계 I like to think of it this way You've got some data, and you are trying to tell a story

More specifically, you're trying to tell your data's story 그리고 descriptive statistics, you can think of it as trying to use a little data to stand in for a lot of data Using a few numbers to stand in for a large collection of numbers And this is consistent with the advice we get from good ole Henry David Thoreau, who told us Simplify, Simplify If you can tell your story with more carefully chosen and more informative data, go for it

So there's a few different procedures for doing this #1, you'll want to describe the center of your distribution of data, that is if you're going to choose a single number, use that # 2, if you can give a second number give something about the spread or the dispersion of the variability And #3, give something about the shape of the distribution Let me say more about each of these in turn

먼저, let's talk about center We have the center of our rings here Now there are a few very common measure of center or location or central tendency of a distribution 저기 mode, the median and there's the mean

Now, there are many, many others but those are the ones that are going to get you most of the way Let's talk about the mode first Now, I'm going to create a little dataset here on a scale from 1 to 11, and I'm going to put individual scores There's a one, and another one, and another one and another 하나 Then we have a two, two, then we have a score way over at 9 and another score over at 11

So we have 8 scores, and this is the distribution This is actually a histogram of the dataset The mode is the most commonly occurring score or the most frequent score Well, if you look at how tall each of these go, we have more ones than anything else, and so one is the mode Because it occurs 4 times and nothing else comes close to that

The median is a little different The median is looking for the score that is at the center if you split it into two equal groups We have 8 scores, so we have to get one group of 4, that's down here, and the other group of four, this really big one because it's way out and the median is going to be the place on the number line that splits those into two groups That's going to be right here at one and a half Now the mean is going to be a little more complicated, even though people understand means in general

그 the first one here that actually has a formula, where M for the mean is equal to the sum of X (that's our scores on the variable), divided by N (the number of scores) 당신은 또한 수 write it out with Greek notation if you want, like this where that's sigma – a capital sigma is the summation sign, sum of X divided by N And with our little dataset, that works out to this: one plus one plus one plus one plus two plus two plus nine plus eleven 더하다 those all up and divide by 8, because that's how many scores there are Well that reduces to 28 divided by 8, which is equal to 3

5 If you go back to our little chart here, 35 is right over here You'll notice there aren't any scores really exactly right there That's because the mean tends to get very distorted by its outliers, it follows the extreme scores

But a really nice, I say it's more than just a visual analogy, is that if this number were a sea saw, then the mean is exactly where the balance point or the fulcrum would be for these to be equal People understand that If somebody weighs more they got to sit in closer to balance someone who less, who has to sit further out, and that's how the mean works Now, let me give a bit of the pros and cons of each of these 방법 is easy to do, you just count how common it is

On the other hand, it may not be close to what appears to be the center of the data The Median it splits the data into two same size groups, the same number of scores in each and that's pretty easy to deal with but unfortunately, it's pretty hard to use that information in any statistics after that And finally the mean, of these three it's the least intuitive, it's the most effective by outliers and skewness and that really may strike against it, but it is the most useful statistically and so it's the one that gets used most often Next, there's the issue of spread, spread your tail feathers And we have a few measures here that are pretty common also

There's the range, there are percentiles and interquartile range and there's variance and standard deviation I'll talk about each of those First the Range 그만큼 Range is simply the maximum score minus the minimum score, and in our case that's 11 minus 1, which is equal to 10, so we have a range of 10 I can show you that on our chart

It's just that line on the bottom from the 11 down to the one That's a range of 10 The interquartile range which is actually usually referred to simply as the IQR is the distance between the Q3; which is the third quartile score and Q1; which is the first quartile score If you're not familiar with quartiles, it's the same the 75th percentile score and the 25th percentile score Really what it is, is you're going to throw away some of the some of the data

So let's go to our distribution here First thing we are going to do, we are going to throw away the two highest scores, there they are, they're greyed out now, and then we are going to throw away two of the lowest scores, they're out 그곳에 Then we are going to get the range for the remaining ones Now, this is complicated by the fact that I have this big gap between 2 and 9, and different methods of calculating quartiles do something with that gap So if you use a spreadsheet it's actually going to do an interpolation process and it will give you a value of 3

75, I believe 그리고 down to one for the first quartile, so not so intuitive with this graph but that it is how it works usually If you want to write it out, you can do it like this The interquartile range is equal to Q3 minus Q1, and in our particular case that's 375 minus 1

And that of course is equal to just 275 and there you have it Now our final measure of spread or variability or dispersion, is two related measures, the variance and the standard deviation These are little harder to explain and a little harder to show But the variance, which is at least the easiest formula, is this: the variance is equal to that's the sum, the capital sigma that's the sum, X minus M; that's how far each score is from the mean and then you take that deviation there and you square it, you add up all the deviations, and then you divide by the number

So the variance is, the average square deviation 평균에서 I'll try to show you that graphically So here's our dataset and there's our mean right there at 3 and a half Let's go to one of these twos We have a deviation there of 1

5 and if we make a square, that's 15 points on each side, well there it is We can do a similar square for the other score too If we are going down to one, then it's going to be 25 squared and it's going to be that much bigger, and we can draw one of these squares for each one of our 8 points

The squares for the scores at 9 and 11 are going to be huge and go off the page, so I'm not going to show them But once you have all those squares you add up the area and you get the variance So, this is the formula for the variance, but now let me show the standard deviation which is also a very common measure It's closely related to this, specifically it's just the square root of the variance Now, there's a catch here

The formulas for the variance and the standard deviation are slightly different for populations and samples in that they use different denominators But they give similar answers, not identical but similar if the sample is reasonably large, say over 30 or 50, then it's really going to be just a negligible difference 그럼 do a little pro and con of these three things First, the Range It's very easy to do, it only uses two numbers the high and the low, but it's determined entirely by those two numbers

And if they're outliers, then you've got really a bad situation The Interquartile Range the IQR, is really good for skewed data and that's because it ignores extremes on either end, so that's nice And the variance and the standard deviation while they are the least intuitive and they are the most affected by outliers, they are also generally the most useful because they feed into so many other procedures that are used in data 과학 Finally, let's talk a little bit about the shape of the distribution 너는 할 수있다

have symmetrical or skew distribution, unimodal, uniform or u-shaped You can have outliers, there's a lot of variations Let me show you a few of them First off is a symmetrical distribution, pretty easy They're the same on the left and on the right

And this little pyramid shape is an example of a symmetrical distribution There are also skewed distributions, where most of the scores are on one end and they taper off This here is a positively skewed distribution where most of the scores are at the low end and the outliers are on the high end This is unimodal, our same pyramid shape Unimodal means it has one mode, really kind of one hump in the data

That's contrasted for instance to bimodal where you have two modes, and that usually happens when you have two distributions that got mixed together There is also uniform distribution where every response is equally common, there's u-shaped distributions where people tend to pile up at one end or the other and a big dip in the 중간 And so there's a lot of different variations, and you want to get those, the shape of the distribution to help you understand and put the numerical summaries like the mean and like the standard deviation and put those into context In sum, we can say this: when you use this script of statistics that allows you to be concise with your data, tell the story and tell it succinctly You want to focus on things like the center of the data, the spread of the data, the shape of the data

And above all, watch out for anomalies, because they can exercise really undue influence on your interpretations but this will help you better understand your data and prepare you for the steps to follow As we discuss “Statistics in Data Science”, one of the really big topics is going to be Inference 그리고 나는 begin that with just a general discussion of inferential statistics But, I'd like to begin unusually with a joke, you may have seen this before it says “There are two kinds of people in the world 1) Those you can extrapolate from incomplete data and, the end”

Of course, because the other group is the people who can't But let's talk about extrapolating from incomplete data or inferring from incomplete data 우선 you need to know is the difference between populations and samples A population represents all of the data, or every possible case in your group of interest It might be everybody who's a commercial pilot, it might be whatever

But it represents everybody in that or every case in that group that you're interested in And the thing with the population is, it just is what it is It has its values, it has it's mean and standard deviation and you are trying to figure out what those are, because you generally use those in doing your analyses On the other hand, samples instead of being all of the data are just some of the data And the trick is they are sampled with error

You sample one group and you calculate the mean It's not going to be the same if you do it the second time, and it's that variability that's in sampling that makes Inference a little tricky 지금, also in inference there are two very general approaches There's testing which is short for hypothesis testing and maybe you've had some experience with this This is where you assume a null hypothesis of no effect is true

You get your data and you calculate the probability of getting the sample data that you have if the null hypothesis is true And if that value is small, usually less than 5%, then you reject the null hypothesis which says really nothings happen and you infer that there is a difference in the population The other most common version is Estimation Which for instance is characterizing confidence intervals That's not the only version of Estimation but it's the most common

과 this is where you sample data to estimate a population parameter value directly, so you use the sample mean to try to infer what the population mean is You have to choose a confidence level, you have to calculate your values and you get high and low bounds for you estimate that work with a certain level of confidence Now, what makes both of these tricky is the basic concept of sampling error I have a colleague who demonstrates this with colored M&M's, what percentage are red, and you get them out of the bags and you count Now, let's talk about this, a population of numbers

I'm going to give you just a hypothetical population of the numbers 1 through 10 And what I am going to do, is I am going to sample from those numbers randomly, with replacement 그 의미는 I pull a number out, it might be a one and I put it back, I might get the one again So I'm going to sample with replacement, which actually may sound a little bit weird, but it's really helpful for the mathematics behind inference And here are the samples that I got, I actually did this with software

I got a 3, 1, 5, and 7 Interestingly, that is almost all odd numbers, almost My second sample is 4, 4, 3, 6 and 10 So you can see I got the 4 twice And I didn't get the 1, the 2, the 5, 7, or 8 or 9

The third sample I got three 1's! And a 10 and a 9, so we are way at the ends there And then my fourth sample, I got a 3, 9, 2, 6, 5 All of these were drawn at random from the exact same population, but you see that the samples are very different That's the sampling variability or the sampling 오류 And that's what makes inference a little trickier

And let's just say again, why the sampling variability, why it matters It's because inferential methods like testing and like estimation try to see past the random sampling variation to get a clear picture on the underlying population So in sum, let's say this about Inferential Statistics 당신 sample your data from the larger populations, and as you try to interpret it, you have to adjust for error and there's a few different ways of doing that And the most common approaches are testing or hypothesis testing and estimation of parameter values

The next step in our discussion of “Statistics and Inference” is Hypothesis Testing A very common procedure in some fields of research I like to think of it as put your money where your mouth is and test your theory Here's the Wright brothers out testing their plane 이제 basic idea behind hypothesis testing is this, and you start out with a question

You start out with something like this: What is the probability of X occurring by chance, if randomness or meaningless sampling variation is the only explanation? Well, the response is this, if the probability of that data arising by chance when nothing's happening is low, then you reject randomness as a likely explanation Okay, there's a few things I can say about 이 #1, it's really common in scientific research, say for instance in the social sciences, it's used all the time #2, this kind of approach can be really helpful in medical diagnostics, where you're trying to make a yes/no decision; does a person have a particular disease And 3, really anytime you're trying to make a go/no go decision, which might be made for instance with a purchasing decision for a school district or implementing a particular law, You base it on the data and you have to make a yes/no

Hypothesis testing might be helpful in those situations Now, you have to have hypotheses to do hypothesis testing You start with H0, which is shorthand for the null hypothesis And what that is in larger, what that is in lengthier terms is that there is no systematic effect between groups, there's no effect between variables and random sampling error is the only explanation for any observed differences you see And then contrast that with HA, which is the alternative hypothesis

And this really just says there is a systematic effect, that there is in fact a correlation between variables, that there is in fact a difference between two groups, that this variable does in fact predict the other one Let's take a look at the simplest version of this statistically speaking Now, what I have here is a null distribution This is a bell curve, it's actually the standard normal distribution Which shows z-scores in relative frequency, and what you do with this is you mark off regions of rejection

And so I've actually shaded off the highest 25% of the distribution and the lowest 25% What's funny about this is, is that even though I draw it +/- 3, it looks like 0 It's actually infinite and asymptotic

But, that's the highest and lowest 25% collectively leaves 95% in 중간 Now, the idea is then that you gather your data, you calculate a score for you data and you see where it falls in this distribution And I like to think of that as you have to go down one path to the other, you have to make a decision And you have to decide to whether to retain your null hypothesis; maybe it is random, or reject it and decide no I don't think it's random

The trick is, things can go wrong You can get a false positive, and this is when the sample shows some kind of statistical effect, but it's really randomness And so for instance, this scatterplot I have here, you can see a little down hill association here but this is in fact drawn from data that has a true correlation And I just kind of randomly sampled from it, it took about 20 rounds, but it looks negative but really there's nothing happening The trick about false positives is; 그거야

conditional on rejecting the null The only way to get a false positive is if you actually conclude that there's a positive result It goes by the highly descriptive name of a Type I error, but you get to pick a value for it, and 05 or a 5% risk if you reject the null hypothesis, that's the most common value Then there's a false negative

이 is when the data looks random, but in fact, it's systematic or there's a relationship So for instance, this scatterplot it looks like there's pretty much a zero relationship, but in fact this came from two variables that were correlated at 25, that's a pretty strong association Again, I randomly sampled from the data until I got a set that happened to look pretty flat And a false negative is conditional on not rejecting the null

You can only get a false negative if you get a negative, you say there's nothing there It's also called a Type II error and this is a value that you have to calculate based on several elements of your testing framework, so it's something to be thoughtful of 지금, I do have to mention one thing, big security notice, but wait The problem with Hypothesis Testing; there's a few #1, it's really easy to misinterpret it

A lot of people say, well if you get a statistically significant result, it means that it's something big and meaningful And that's not true because it's confounded with sample size and a lot of other things that don't really matter Also, a lot of other people take exception with the assumption of a null effect or even a nil effect, that there's zero difference 조금도 And that can be, in certain situations can be an absurd claim, so you've got to watch out for that There's also bias from the use of cutoff

Anytime you have a cut off, you're going to have problems where you have cases that would have been slightly higher, slightly lower It would have switched on the dichotomous outcome, so that is a problem And then a lot of people say, it just answers the wrong question, because “What it's telling you is what's the probability of getting this data at random?” That's not what most people care about They want it the other way, which is why I mentioned previously Bayes theorem and I'll say more about that later That being said, Hypothesis Testing is still very deeply ingrained, very useful in a lot of questions and has gotten us really far in a lot of domains

So in sum, let me say this Hypothesis Testing is very common for yes/no outcomes and is the default in many fields And I argue it is still useful and information despite many of the well substantiated critiques We'll continue in “Statistics and Inference” by discussing Estimation Now as opposed to Hypothesis Testing, Estimation is designed to actually give you a number, give you a value

Not just a yes/no, go/no go, but give you an estimate for a parameter that you're trying to get 나는 생각하고 싶어한다 of it sort of as a new angle, looking at something from a different way And the most common, approach to this is Confidence Intervals Now, the important thing to remember is that this is still an Inferential procedure

You're still using sample data and trying to make conclusions about a larger group or population The difference here, is instead of coming up with a yes/no, you'd instead focus on likely values for the population value 가장 versions of Estimation are closely related to Hypothesis Testing, sometimes seen as the flip side of the coin And we'll see how that works in later videos Now, I like to think of this as an ability to estimate any sample statistic and there's a few different versions

We have Parametric versions of Estimation and Bootstrap versions, that's why I got the boots here And that's where you just kind of randomly sample from the data, in an effort to get an idea of the variability You can also have central versus noncentral Confidence Intervals in the Estimation, but we are not going to deal with those 지금, there are three general steps to this First, you need to choose a confidence level

어딘가에 from say, well you can't have a zero, it has to be more than zero and it can't be 100 % Choose something in between, 95% is the most common And what it does, is it gives you a range a high and a low And the higher your level of confidence the more confident you want to be, the wider the range is going to be between your high and your low estimates Now, there's a fundamental trade off in what' happening here and the trade off between accuracy; which means you're on target or more specifically that your interval contains the true population value

And the idea is that leads you to the correct Inference 저기있다 a tradeoff between accuracy and what's called Precision in this context And precision means a narrow interval, as a small range of likely values And what's important to emphasize is this is independent of accuracy, you can have one without the other! Or neither or 양자 모두

In fact, let me show you how this works What I have here is a little hypothetical situation, I've got a variable that goes from 10 to 90, and I've drawn a thick black line at 50 If you think of this in terms of percentages and political polls, it makes a very big difference if you're on the left or the right of 50% And then I've drawn a dotted vertical line at 55 to say that that's our theoretical true population value 과 what I have here is a distribution that shows possible values based on our sample data

And what you get here is it's not accurate, because it's centered on the wrong thing It's actually centered on 45 as opposed to 55 And it's not precise, because it's spread way out from may be 10 to almost 80 So, this situation the data is no help really 조금도 Now, here's another one

This is accurate because it's centered on the true 값 That's nice, but it's still really spread out and you see that about 40% of the values are going to be on the other side of 50%; might lead you to reach the wrong conclusion That's a problem! Now, here's the nightmare situation This is when you have a very very precise estimate, but it's not accurate; it's wrong And this leads you to a very false sense of security and understanding of what's going on and you're going to totally blow it all the time

The ideal situation is this: you have an accurate estimate where the distribution of sample values is really close to the true population value and it's precise, it's really tightly knit and you can see that about 95% of it is on the correct side of 50 and that's good If you want to see all four of them here at once, we have the precise two on the bottom, the imprecise ones on the top, the accurate ones on the right, the inaccurate ones on the left And so that's a way of comparing it But, no matter what you do, you have to interpret confidence interval Now, the statistically accurate way that has very little interpretation is this: you would say the 95% confidence interval for the mean is 5

8 to 72 Okay, so that's just kind of taking the output from your computer and sticking it to sentence form The Colloquial Interpretation of this goes like this: there is a 95% chance that the population mean is between 58 and 7

2 Well, in most statistical procedures, specifically frequentist as opposed to bayesian you can't 그렇게 That implies the population mean shifts, that's not usually how people see 그것 Instead, a better interpretation is this; 95% of confidence intervals for randomly selected samples will contain the population mean Now, I can show you this really easily, with a little demonstration

This is where I randomly generated data from a population with a mean of 55 and I got 20 different samples And I got the Confidence Interval from each sample and I charted the high and the low And the question is, did it include the true population 값 And you can see of these 20, 19 included it, some of them barely made it If you look at sample #1 on the far left; barely made it

Sample #8, it doesn't look like it made it, sample 20 on the far right, barely made it on the other end Only one missed it completely, that sample #2, which is shown in red on the left Now, it's not always just one out of twenty, I actually had to run this simulation about 8 times, because it gave me either zero or 3, or 1 or two, and I had to run it until I got exactly what I was looking for here, But this is what you would expect on average So, let's say a few things about this

그곳에 are somethings that affect the width of a Confidence Interval The first is the confidence level, or CL Higher confidence levels create wider intervals The more certain you have to be, you're going to give a bigger range to cover your basis Second, the Standard Deviation or larger standard deviations create wider intervals

If the thing that you are studying is inherently really variable, then of course you're estimate of the range is going to be more variable as well And then finally there is the n or the sample size This one goes the other way Larger sample sizes create narrower intervals The more observations you have, the more precise and the more reliable things tend to be

제가 할수 있어요 show you each of these things graphically Here we have a bunch of Confidence Intervals, where I am simply changing the confidence level from 50 at the low left side to 999 and as you can see, it gets much bigger as we increase Next one is Standard Deviation

As the sample standard deviation increases from 1 to 16, you can see that the interval gets a lot bigger And then we have sample size going from just 2 up to 512; I'm doubling it at each point And you can see how the interval gets more and more and more precise as we go through And so, let's say this to sum up our discussion of estimation 자신 Intervals which are the most common version of Estimation focus on the population parameter

And the variation in the data is explicitly included in that Estimation Also, you can argue that they are more informative, because not only do they tell you whether the population value is likely, but they give you a sense of the variability of the data itself, and that's one reason why people will argue that confidence levels should always be included in any statistical analysis As we continue our discussion on “Statistics and Data Science”, we need to talk about some of the choices you have to make, some of the tradeoffs and some of the effects that these things have We'll begin by talking about Estimators, that is different methods for estimating parameters I like to think of it as this, “What kind of measuring stick or standard are you going to be using?” Now, we'll begin with the most common

This is called OLS, which is actually short for Ordinary Least Squares This is a very common approach, it's used in a lot of statistics and is based on what is called the sum of squared errors, and it's characterized by an acronym called BLUE, which stands for Best Linear Unbiased Estimator 어떻게 작동하는지 보여 드리죠 해 보자 a scatterplot here of an association between two variables This is actually the speed of a car and the distance to stop from about the '20's I think

We have a scatterplot and we can draw a straight regression line right through it Now, the line I've used is in fact the Best Linear Unbiased Estimate, but the way that you can tell that is by getting what are called the Residuals If you take each data point and draw a perfectly vertical line up or down to the regression line, because the regression line predicts what the value would be for that value on the X axis Those are the residuals Each of those individual, vertical lines is Residual

You square those and you add them up and this regression line, the gray angled line here will have the smallest sum of the squared residuals of any possible straight line you can run through it Now, another approach is ML, which stands for Maximum Likelihood And this is when you choose parameters that make the observed data most likely 그것 sounds kind of weird, but I can demonstrate it, and it's based on a kind of local search It doesn't always find the best, I like to think of it here like the person here with a pair of binoculars, looking around them, trying hard to find something, but you could theoretically miss something

Let me give a very simple example of how this works 하자 assume that we're trying to find parameters that maximize the likelihood of this dotted vertical line here at 55, and I've got three possibilities I've got my red distribution which is off to the left, blue which is a little more centered and green which is far 오른쪽으로 And these are all identical, except they have different means, and by changing the means, you see there the one that is highest where the dotted line is the blue one 과 so, if the only thing we are doing is changing the mean, and we are looking at these three distributions, then the blue one is the one that has the maximum likelihood for this particular 매개 변수

On the other hand, we could give them all the same meaning right around 50, and vary their standard deviations instead and so they spread out different amounts In this case, the red distribution is highest at the dotted vertical line and so it has the maximum value Or if you want to, you can vary both the mean and the standard deviations 동시에 And here green gets the slight advantage Now this is really a caricature of the process because obviously you would just want to center it on the 55 and be done 그것으로

The question is when you have many variables in your dataset Then it's a very complex process of choosing values that can maximize the association between all of them But you get a feel for how it works with this The third approach which is pretty common is MAP or map for Maximum A Posteriori This is a Bayesian approach to parameter estimation, and what it does it adds the prior distribution and then it goes through sort of an anchoring and adjusting process

What happens, by the way is stronger prior estimates exert more influence on the estimate and that might mean for example larger sample or more extreme 값 And those have a greater influence on the posterior estimate of the parameters Now, what's interesting is that all three of these methods all connect with each other Let me show you exactly how they connect The ordinary least squares, OLS, this is equivalent to maximum likelihood, when it has normally distributed error terms

And maximum likelihood, ML is equivalent to Maximum A Posteriori or MAP, with a uniform prior distribution 당신 want to put it another way, ordinary least squares or OLS is a special case of Maximum Likelihood And then maximum likelihood or ML, is a special case of Maximum A Posteriori, and just in case you like it, we can put it into set notation OLS is a subset of ML is a subset of MAP, and so there are connections between these three methods of estimating population parameters Let me just sum it up briefly this way

The standards that you use OLS, ML, MAP they affect your choices and they determine which parameters best estimate what's happening in your data Several methods exist and there's obviously more than what I showed you right here, but many are closely related and under certain circumstances they're all identical And so it comes down to exactly what are your purposes and what do you think is going to work best with the data that you have to give you the insight that you need in your own project The next step we want to consider in our “Statistics and Data Science”, are choices that we have to make Has to do with Measures of fit or the correspondence between the data that we have and the model that you create

Now, turns out there are a lot of different ways to measure this and one big question is how close is close enough or how can you see the difference between the model and reality Well, there's a few really common approaches to this The first one has what's called R2 That's kind of the longer name, that's the coefficient of determination There's a variation; adjusted R2, which takes into consideration the number of variables

Then there's minus 2LL, which is based on the likelihood ratio and a couple of variations The Akaike Information Criterion or AIC and the Bayesian Information Criterion or BIC Then there's also Chi-Squared, it's actually a Greek c, it looks like ax, but it's actually c and it's chi-squared And so let's talk about each of these in turn First off is R2, this is the squared multiple correlation or the coefficient of determination

And what it does is it compares the variance of Y, so if you have an outcome variable, it looks like the total variance of that and compares it to the residuals on Y after you've made your prediction 그만큼 scores on squared range from 0 to 1 and higher is better The next is -2 Log-likelihood that's the likelihood ratio or like I just said the -2 log likelihood And what this does is compares the fit of nested models, we have a subset then a larger set, than the larger set overall This approach is used a lot in logistic regression when you have a binary outcome

And in general, smaller values are considered better fit Now, as I mentioned there are some variations 이의 I like to think of variations of chocolate The -2 log likelihood there's the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC) and what both of these do, they adjust for the number of predictors Because obviously you're going to have a huge number of predictors, you're going to get a really good fit

그러나 you're probably going to have what is called overfitting, where your model is tailored to specifically to the data you currently have and that doesn't generalize well 이들 both attempt to reduce the effect of overfitting Then there's chi-squared again 실제로 a lower case Greek c, looks like an x and chi-squared is used for examining the deviations between two datasets Specifically between the observed dataset and the expected values or the model you create, we expect this many frequencies in each category

Now, I'll just mention when I go into the store there's a lot of other choices, but these are some of the most common standards, particularly the R2 And I just want to say, in sum, there are many different ways to assess the fit that corresponds between a model and your 데이터 And the choices effect the model, you know especially are you getting penalized for throwing in too many variables relative to your number of cases? Are you dealing with a quantitative or binary outcome? Those things all matter, and so the most important thing as always, my standing advice is keep your goals in mind and choose a method that seems to fit best with your analytical strategy and the insight you're trying to get from your data The “Statistics and Data Science” offers a lot of different choices 하나의 the most important is going to be feature selection, or the choice of variables to include in your model

It's sort of like confronting this enormous range of information and trying to choose what matters most Trying to get the needle out of the haystack The goal of feature selection is to select the best features or variables and get rid of uninformative/noisy variables and simplify the statistical model that you are creating because that helps avoid overfitting or getting a model that works too well with the current data and works less well with other data The major problem here is Multicollinearity, a very long word 그 has to do with the relationship between the predictors and the model

나는 보여줄거야 it to you graphically here Imagine here for instance, we've got a big circle here to represent the variability in our outcome variable; we're trying to predict it And we've got a few predictors So we've got Predictor # 1 over here and you see it's got a lot of overlap, that's nice

Then we've got predictor #2 here, it also has some overlap with the outcome, but it's also overlaps with Predictor 1 And then finally down here, we've got Predictor 3, which overlaps with both of them And the problem rises the overlap between the predictors and the outcome variable Now, there's a few ways of dealing with this, some of these are pretty common So for instance, there's the practice of looking at probability values and regression equations, there's standardized coefficients and there's variations on sequential regression

There are also, there's newer procedures for dealing with the disentanglement of the association between the predictors There's something called Commonality analysis, there's Dominance Analysis, and there are Relative Importance 무게 Of course there are many other choices in both the common and the newer, but these are just a few that are worth taking a special look at First, is P values or probability 값 This is the simplest method, because most statistical packages will calculate probability values for each predictor and they will put little asterisks next to it

And so what you're doing is you're looking at the p-values; the probabilities for each predictor or more often the asterisks next to it, which sometimes give it the name of Star Search 넌 그냥 kind of cruising through a large output of data, just looking for the stars or asterisks This is fundamentally a problematic approach for a lot of reasons The problem here, is your looking individually and it inflates false positives Say you have 20 variables

Each is entered and tested with an alpha or a false positive of 5% You end up with nearly a 65% chance of a least one false positive in there That's distorted by sample size, because with a large enough sample anything can become statistically significant 과 so, relying on p-values can be a seriously problematic approach Slightly better approach is to use Betas or Standardized regression coefficients and this is where you put all the variables on the same scale

So, usually standardized from zero and then to either minus 1/plus 1 or with a standardized deviation of 1 The trick is though, they're still in the context of each other and you can't really separate them because those coefficients are only valid when you take that group of predictors as a whole So, one way to try and get around that is to do what they call stepwise procedures Where you look at the variables in sequence, there's several versions of sequential regression that'll allow you 하기 위해서 You can put the variables into groups or blocks and enter them in blocks and look at how the equation changes overall

You can examine the change in fit in each 단계 The problem with a stepwise procedure like this, is it dramatically increases the risk of overfitting which again is a bad thing if you want to generalize your data 그래서, to deal with this, there is a whole collection of newer methods, a few of them include commonality analysis, which provides separate estimates for the unique and shared contributions of each variable Well, that's a neat statistical trick but the problem is, it just moves the problem of disentanglement to the analyst, so you're really not better off then you were as far as I can tell There's dominance analysis, which compares every possible subset of Predictors

Again, sounds really good, but you have the problem known as the combinatorial explosion If you have 50 variables that you could use, and there are some that have millions of variables, with 50 variables, you have over 1 quadrillion possible combinations, you're not going to finish that in your lifetime And it's also really hard to get things like standard errors and perform inferential statistics with this kind of model Then there's also something that's even more recent than these others and that's called relative importance weights And what that does is creates a set of orthogonal predictors or uncorrelated with each other, basing them off of the originals and then it predicts the scores and then it can predict the outcome without the multicollinear because these new predictors are uncorrelated

It then rescales the coefficients back to the original variables, that's the back-transform Then from that it assigns relative importance or a percentage of explanatory power to each predictor variable Now, despite this very different approach, it tends to have results that resemble dominance analysis It's actually really easy to do with a website, you just plug in your information and it does it for you And so that is yet another way of dealing with a problem multicollinearity and trying to disentangle the contribution of different variables

In sum, let's say this What you're trying to do here, is trying to choose the most useful variables to include into your model Make it simpler, be parsimonious Also, reduce the noise and distractions in your data And in doing so, you're always going to have to confront the ever present problem of multicollinearity, or the association between the predictors in your model with several different ways of dealing with that

The next step in our discussion of "Statistics and the Choices you have to Make", concerns common problems in modeling And I like to think of this is the situation where you're up against the rock and the hard place and this is where the going gets very hard Common problems include things like Non-Normality, Non-Linearity, Multicollinearity and Missing Data And I'll talk about each of these Let's begin with Non-Normality

Most statistical procedures like to deal with nice symmetrical, unimodal bell curves, they make life really easy But sometimes you get really skewed distribution or you get outliers Skews and outliers, while they happen pretty often, they're a problem because they distort measures like the mean gets thrown off tremendously when they have outliers And they throw off models because they assume the symmetry and the unimodal nature of a normal distribution Now, one way of dealing with this as I've mentioned before is to try transforming the data, taking the logarithm, try something else

But another problem may be that you have mixed distributions, if you have a bimodal distribution, maybe what you really have here is two distributions that got mixed together and you may need to disentangle them through exploring your data a little bit more Next is Non-Linearity The gray line here is the regression line, we like to put straight lines through things because it makes the description a lot easier But sometimes the data is curved and this is you have a perfect curved relationship here, but a straight line doesn't work with 그 Linearity is a very common assumption of many procedures especially regression

To deal with this, you can try transforming one or both of the variables in the equation and sometimes that manages to straighten out the relationship between the two of them Also, using Polynomials Things that specifically include curvature like squares and cubed values, that can help as well Then there's the issues of multicollinearity, which I've mentioned previously This is when you have correlated predictors, or rather the predictors themselves are associated to each other

The problem is, this can distort the coefficients you get in the overall model Some procedures, it turns out are less affected by this than others, but one overall way of using this might be to simply try and use fewer variables If they're really correlated maybe you don't need all of them And there are empirical ways to deal with this, but truthfully, it's perfectly legitimate to use your own domain expertise and your own insight to the problem To use your theory to choose among the variables that would be the most informative

Part of the problem we have here, is something called the Combinatorial Explosion This is where combinations of variables or categories grow too fast for analysis Now, I've mentioned something about this before If you have 4 variables and each variable has two categories, then you have 16 combinations, fine you can try things 16 different ways That's perfectly doable

If you have 20 variables with five categories; again that's not to unlikely, you have 95 trillion combinations, that's a whole other ball game, even with your fast computer A couple of ways of dealing with this, #1 is with theory Use your theory and your own understanding of the domain to choose the variables or categories with the greatest potential to inform You know what you're dealing with, rely on that information Second is, there are data driven approaches

당신 can use something called a Markov chain Monte Carlo model to explore the range of possibilities without having to explore the range of possibilities of each and every single one of your 95 trillion 조합 Closely related to the combinatorial explosion is the curse of dimensionality This is when you have phenomena, you're got things that may only occur in higher dimensions or variable sets Things that don't show up until you have these unusual combinations That may be true of a lot of how reality works, but the project of analysis is simplification

And so you've got to try to do one or two different things You can try to reduce Mostly that means reducing the dimensionality of your data Reduce the number of dimensions or variables before you analyze You're actually trying to project the data onto a lower dimensional space, the same way you try to get a shadow of a 3D object

There's a lot of different ways to do that There's also data driven methods And the same method here, a Markov chain Monte Carlo model, can be used to explore a wide range of possibilities Finally, there is the problem of Missing Data and this is a big problem Missing data tends to distort analysis and creates bias if it's a particular group that's missing

And so when you're dealing with this, what you have to do is actually check for patterns and missingness, you create new variables that indicates whether or not a variable is missing and then you see if that is associated with any of your other variables If there's not strong patterns, then you can impute missing values You can put in the mean or the median, you can do Regression Imputation, something called Multiple Imputation, a lot of different choices 과 those are all technical topics, which we will have to talk about in a more technically oriented 시리즈 But for right now, in terms of the problems that can come up during modeling, I can summarize it this way

#1, check your assumptions at every step Make sure that the data have the distribution that you need, check for the effects of outliers, check for ambiguity and bias See if you can interpret what you have and use your analysis, use data driven methods but also your knowledge of the theory and the meaning of things in your domain to inform your analysis and find ways of dealing with these problems As we continue our discussion of “Statistics and the Choices that are Made”, one important consideration is Model Validation And the idea here is that as you are doing your analysis, are you on target? More specifically, the model that you create through regression or whatever you do, your model fits the sample beautifully, you've optimized it there

But, will it work well with other data? Fundamentally, this is the question of Generalizability, also sometimes called Scalability Because you are trying to apply in other situations, and you don't want to get too specific or it won't work in other situations 지금, there are a few general ways of dealing with this and trying to get some sort of generalizability #1 is Bayes; a Bayesian approach Then there's Replication

Then there's something called Holdout Validation, then there is Cross-Validation I'll discuss each one of these very briefly in conceptual terms The first one is Bayes and the idea here is you want to get what are called Posterior Probabilities Most analyses give you the probability value for the data given; the hypothesis, so you have to start with an assumption about the hypothesis 그러나 instead, it's possible to flip that around by combining it with special kind of data to get the probability of the hypothesis given the data

And that is the purpose of Bayes theorem; which I've talked about elsewhere Another way of finding out how well things are going to work is through Replication That is, do the study again It's considered the gold standard in many different fields The question is whether you need an exact replication or if a conceptual one that is similar in certain respects

You can argue for both ways, but one thing you do want to do is when you do a replication then you actually want to combine the results And what's interesting is the first study can serve as the Bayesian prior probability for the second study So you can actually use meta-analysis or Bayesian methods for combining the data from the two of them Then there's hold out validation This is where you build your statistical model on one part of the data and you test it on the other

I like to think of it as the eggs in separate baskets 그만큼 trick is that you need a large sample in order to have enough to do these two steps separately On the other hand, it's also used very often in data science competitions, as a way of having a sort of gold standard for assessing the validity of a model Finally, I'll mention just one more and that's Cross-Validation Where you use the same data for training and for testing or validating

There's several different versions of it, and the idea is that you're not using all the data at once, but you're kind of cycling through and weaving the results together There's Leave-one-out, where you leave out one case at a time, also called LOO There's Leave-p-out, where you leave out a certain number at each point There's k-fold where you split the data into say for instance 10 groups and you leave out one and you develop it on the other nine, then you cycle through And there's repeated random subsampling, where you use a random process at each point

Any of those can be used to develop the model on one part of the data and tested on another and then cycle through to see how well it holds up on different circumstances And so in sum, I can say this about validation You want to make your analysis count by testing how well your model holds up from the data you developed it on, to other situations Because that is what you are really trying to accomplish This allows you to check the validity of your analysis and your reasoning and it allows you to build confidence in the utility of your results

To finish up our discussion of “Statistics and Data Science” and the choices that are involved, I want to mention something that really isn't a choice, but more an attitude 그리고 그것은 DIY, that's Do it yourself The idea here is, you know really you just need to get started Remember data is democratic It's there for everyone, everybody has data

각자 모두 works with data either explicitly or implicitly Data is democratic, so is Data Science 과 really, my overall message is You can do it! You know, a lot of people think you have to be this cutting edge, virtual reality sort of thing And it's true, there's a lot of active development going on in data science, there's always new stuff The trick however is, the software you can use to implement those things often lags

It'll show up first in programs like R and Python, but as far as it showing up in a point click program that could be years What's funny though, is often these cutting edge developments don't really make much of a difference in the results of the interpretation They may in certain edge cases, but usually not a huge difference So I'm just going to say analyst beware You don't have to necessarily do it, it's pretty easy to do them wrong and so you don't have to wait for the cutting edge

Now, that being said, I do want you to pay attention to what you are doing A couple of things I have said repeatedly is “Know your goal” Why are you doing this study? Why are you analyzing the data, what are you hoping to get out of it? Try to match your methods to your goal, be goal directed Focus on the usability; will you get something out of this that people can actually do something with Then, as I've mentioned with that Bayesian thing, don't get confused with probabilities

Remember that priors and posteriors are different things just so you can interpret things accurately Now, I want to mention something that's really important to me personally 그리고 그 is, beware the trolls You will encounter critics, people who are very vocal and who can be harsh and grumpy and really just intimidating And they can really make you feel like you shouldn't do stuff because you're going to do it wrong

But the important thing to remember is that the critics can be wrong Yes, you'll make mistakes, everybody does You know, I can't tell you how many times I have to write my code more than once to get it to do what I want it to do But in analysis, nothing is completely wasted if you pay close attention I've mentioned this before, everything signifies

Or in other words, everything has meaning The trick is that meaning might not be what you expected it to be So you're going to have to listen carefully and I just want to reemphasize, all data has value So make sure your listening carefully In sum, let's say this: no analysis is perfect

The real questions is not is your analysis perfect, but can you add value? 과 I'm sure that you can And fundamentally, data is democratic So, I'm going to finish with one more picture here and that is just jump write in and get started You'll be glad you did To wrap up our course “Statistics and Data Science”, I want to give you a short conclusion and some next steps

Mostly I want to give a little piece of advice I learned from a professional saxophonist, Kirk Whalum And he says there's “There's Always Something To Work On”, there's always something you can do to try things differently to get better It works when practicing music, it also works when you're dealing with 데이터 Now, there are additional courses, here at datalabbcc that you might want to look 에서

They are conceptual courses, additional high-level overviews on things like machine learning, data visualization and other topics And I encourage you to take a look at those as well, to round out your general understanding of the field There are also however, many practical courses These are hands on tutorials on these statistical procedures I've covered and you learn how to do them in R, Python and SPSS and other programs But whatever you're doing, keep this other little piece of advice from writers in mind, and that is “Write what you know”

And I'm going to say it this way Explore and analyze and delve into what you know Remember when we talked about data science and the Venn Diagram, we've talked about the coding and the stats But don't forget this part on the bottom Domain expertise is just as important to good data science as the ability to work with computer coding and the ability to work with the numbers and quantitative skills

But also, remember 이 You don't have to know everything, your work doesn't have to be perfect 그만큼 most important thing is just get started, you'll be glad you did 가입 해 주셔서 감사합니다 me and good luck!

Hadoop Tutorial For Beginners | Big Data Hadoop | Apache Hadoop | Intellipaat

안녕 얘들 아, Intellipaat에 다시 오신 것을 환영합니다 오늘 세션에서 우리는 Hadoop은 무엇입니까? 하지만 실제로 우리가 다른 의문

Hadoop이 실제로 엔터프라이즈에있는 이유는 무엇입니까? 먼저 예제를 통해이 질문에 답한 다음 하둡 그러니 아주 작은 이야기부터 시작해 보겠습니다 그래서 나는 Jeff Mezos,이 전자 상거래 사이트의 CEO 인 Mamazon입니다 기술 친구들 오늘날 우리 조직은 다음과 같이 보입니다

우리는 전자 상거래 사이트를 보유하고 있으며 오라클에서 운영됩니다 우리는 인벤토리를 가지고있다 My SQL에서 실행됩니다 그래서 인생은 여기에서 매우 쉽습니다 모든것은 굉장해

그래서 지금 질문에 답하고 싶다면 예를 들어, 얼마나 많은 아이폰이 다음 달에 주문해야합니까? 아주 간단한 것들 이제는 일반적인 방법으로 일을하는 것은 모든 데이터를 데이터웨어 하우스에로드하는 것입니다 의 말을하자, 테라 데이터를 사용하면 기본적으로보고를 수행합니다 그래서 여기에 도구가 있습니다

tableau 및 QlikView와 유사합니다 따라서 모든 데이터가 생성되고로드됩니다 창고와 생활은 매우 간단합니다 그러나 이것은 하나의 문제입니다 그래서 진짜 문제 이 전체 설정에서 이것은 2000 년을 말할 때까지 잘 작동했을 것입니다

오늘날, 우리는 지금 2018 년에 있으며 질문은 그렇지 않습니다 우리가있는 데이터의 양이 보고있는 것은 매우 거대합니다 그럼 간단한 예를 들어 봅시다 이제 내가 가면 질문을 바꾸고 얼마나 많은 고객이 iPhone을 구입했는지, 좋아하는지 배달이 싫어 그러나 우리와 이야기하는 대신, 그들은 분노했습니다

지저귀다 이제 우선, 소스와 같은 데이터가 트위터 및 센서, 네트워크 로그 및 클라우드와 같은 기타 출처 그래서 이건 생성되는 데이터는 실제로 매우 크고 귀하의 데이터에 적합하지 않습니다 전통적인 데이터베이스 시스템은 괜찮습니다 그래서 마이클은 여기에 질문을합니다 그는 Big Data에 대해 이야기하고 계십니까? 네, 마이클, 당신은 절대적으로 옳습니다

그래서 이 모든 엄청난 양의 데이터가 서로 다른 출처에서 나옵니다 다른 형식은 귀하의 큰 데이터 일 뿐이며 새로운 것을 필요로합니다 이 큰 데이터를 저장하고 처리합니다 그래서 우리가 데려 오기로 결정했습니다 다른 시스템 및 시스템은 Hadoop이라고합니다

이제 Hadoop을 매우 거대한 데이터웨어 하우스로서의 매우 조잡한 원유 방식 따라서 데이터를 가져올 수 있습니다 어디서나 쉽게 단일 마스터를 호스트 할 수 있으며 이론적으로 수십 개의 수천 개의 노드 또한 두 가지 서비스 저장 및 프로세스를 제공합니다 그래서이 남자, 전통적인 데이터베이스 및 기타 소스에서도 데이터를 가져올 수 있습니다

이제이 녀석, 데이터를 저장하고 데이터를 처리 할 수 ​​있습니다 하둡을 누군가로 생각하십시오 일반적으로 많은 데이터를 저장하고 처리하기 위해웨어 하우스를 보완합니다 이제 최종 처리가 완료된 후에도 데이터를 저장하고 처리 한 후 그 마지막 물건을 창고에 넣을 수 있습니다 분석 도구를 사용하면보고 도구에 직접 연결할 수 있습니다

가능한 사람들도 그래서 당신의 패턴에 따라, 당신은 당신이 정말로 무엇을 선택할 수 있습니다 하고 싶다 이것이 Hadoop의 배경입니다 그래서 모든 데이터를 한 곳에서 처리하고 나면 무엇이든간에 창고에 실을 수 있습니다

또는 직접보고 도구에 연결할 수 있으며 다른 도구가 있습니다 예를 들어, 이것을 오라클에 다시로드하면 추천이됩니다 엔진 이런 식으로 생각하십시오 데이터를 얻은 모든 출처에서 우리는 아이폰을 사는 사람들의 85 %가 스크린 가드와 81 %의 사람들을 샀다고 배웁니다

아이폰을 사면 뒷 표지도 샀다 이제 우리가 이것을 한 번 배우면 하둡, 우리는 이것을 오라클에 다시로드 할 수 있으며 다음 고객이 전자 상거래 사이트에서는 항상 iPhone을 구입 한 사람들에게 스크린 가드와 뒤 표지를 샀다 따라서 Hadoop을 매우 큰 데이터 저장소로 생각하십시오 데이터를 저장하고 데이터를 처리 한 다음 원하는 방식으로 사용할 수 있습니다 여러분, 하둡이 무엇인지에 대해 모든 사람들이 분명히 희망하기를 바랍니다

그럼 나에게 빨리 줄래 내가 앞으로 나아갈 수있는 확인 좋아 램은 그가 분명해서 앤이라는 것을 확인했다 좋아, 모두들 좋아하는 것 같아 그래서 이제 Hadoop의 스토리지 및 프로세싱 부분을 이해하게 될 것입니다

하지만 대신 작은 이름을 쓰면 어떻게 될까? 왜냐하면 우리는 완전히 이해할 것이기 때문입니다 그래서 Kailash의 CEO 인 타마 컨설팅 서비스와 회사의 입지는 150 세 이상입니다 전세계의 국가와 사람들이이 회사를 좋아합니다 어제는 회사의 Facebook 페이지에 10 억 개의 좋아하는 항목이 있으므로 이제 CEO가 거대한 대시 보드 지구 전체를 볼 수 있고 각 국가를 가리킬 수 있습니다

그 나라에서 얼마나 많은 사람들이 좋아하는지 표시합니다 이제이 작업은 프로젝트 관리자 인 Ajay에게 배정 받았고 대시 보드는 4 일 만에 만들었습니다 이제 Ajay가 이것을 위해 Hadoop을 사용한다고 가정 해 봅시다 그의 팀에는 두 명의 멤버가 있습니다 미스터 관리 및 미스터 개발자, 지금 Ajay Admin 씨, Hadoop 클러스터를 설정하고 Mr

개발자는 전체 대시 보드를 개발해야합니다 그럼 무엇을 보자 지금 당장 일어난다 첫 번째 관리자가 들어 오면 5 대의 컴퓨터를 구입하고 하나는 주인이고 4 명은 노예가 될 것이라고 결정한다 그래서 Mr

관리자가 일하기 시작했으며 그는 5 노드 클러스터를 하나 설치했습니다 마스터 및 4- 노드 슬레이브 및 Hadoop은 모두 스토리지 및 처리에 관한 것입니다 곧 주인, 그는 저장 주인이라고 불리는 누군가를 설치하고 주인에 다시, 그는 처리 마스터를 설치합니다 이제 노예에서 그는 스토리지 노예와 처리하는 노예 그래서 그는 모든 노예를 위해 이것을합니다

이제 관리자는 Jeff에게 "Boss 설정이 완료되면 데이터를 수집하고 프로그램을 작성하십시오 "이제 Ajay는 개발자 님, 개발자가 진행하고 데이터를로드하고 코드 그래서 개발자는 페이스 북이 JSON으로 파일 크기는 약 640MB입니다 그래서 그는 스토리지 마스터에게 글을 쓸 때 파일은 실제로 128MB 블록으로 분류됩니다 따라서 640을 128로 나누면 5 개의 블록을 의미하고 각 블록은 복제됩니다

세 번, 그래서 그것을 15 블록 괜찮아요 그래서 Deepak의 질문이 있습니다 그는 "블록이 3 번 복제 된 이유는 무엇입니까?"라고 묻습니다 좋은 질문입니다 그래서 우리는 실제로 Hadoop의 내결함성 개념이 있습니다

지금도 원본 블로그가 손상되면 해당 블록을 두 개 더 복사 할 수 있습니다 데이터를 검색하면 이것이 Hadoop을 매우 신뢰할 수있게합니다 그래서 그것은 당신의 대답입니다 질문 디팍 좋습니다, 그래서 디팍은 좋습니다

이제이 15 블록의 원본 파일은 다른 슬레이브 노드에 분산됩니다 그래서 네 이 블로그 중 첫 번째 슬레이브에 저장되고, 네 번째 슬레이브에 네 개가 저장됩니다 세 번째 노예, 둘째 셋, 셋째 노예 이제 데이터가 준비되었습니다 그것 이미 블록으로 나뉘어져 있지만 스토리지 마스터의 경우에는 메타 데이터 만 갖게됩니다

따라서 메타 데이터는 다음과 같습니다 지금 FacebookJSON은 블록 1,2,3,4 & 5와 블록 1입니다 슬레이브 1,2 & 3에 존재합니다 블록 2는 슬레이브 2에 있습니다

3과 4 등이 메타 데이터에 저장됩니다 그래서 거기 마스터가 저장 전용이기 때문에 스토리지 마스터에 아무런 문제가 없습니다 메타 데이터 및 전체 데이터가 아닙니다 이제 그 기억이 전혀 아니다 발행물

따라서 파일의 크기에 관계없이 이름 노드의 메모리를 사용합니다 메타 데이터에 대해서만 원래 데이터가 실제로 슬레이브에 기록됩니다 지금 여러분에게 간단한 예를 들어 보겠습니다 그래서 우리가 말하자면, 그의 팀에 4 명이있는 프로젝트 매니저 이제는 프로젝트 매니저가 알고 있습니다

사람들이하는 일은 무엇이지만 모든 일은 실제로 노예가합니다 그래서 매니저가 여기 병목 현상이 아니며 그의 매니저도 아닙니다 어떤 데이터가 어디에 저장되어 있는지를 알 수있는 용량 그래서 관리자는 아무 것도하지 않습니다 그는 메타 데이터 만 가지고 있습니다

좋아, 이제 데이터가있는 곳 저장된 개발자는 데이터를 가져 왔으며 그것을 저장 영역에 썼고 모든 데이터가 퍼져 나갔다 그래서 이제 개발자는 앞서 가서 프로그램을 쓴다 국가 별 좋아요 수를 찾으려면 프로그램 이름이 자바 프로그램 이제이 Java 프로그램이 제출되므로 처리 마스터 모든 컴퓨터에이 코드를 복사합니다 이제 마스터는 기본적으로 그렇게 말할 것입니다

네 노예 한 명을 처리하고 두 명을 차단하라 당신에게 국부적 인 슬레이브 2, 블록 3을 로컬로 처리합니다 당신 노예 3 개, 당신은 네 블록과 네 노예 네 블록을 처리합니다

당신에게 국부적 인 프로세스 블록 5 따라서 비즈니스를 로컬로 수행하고 네트워크에 말하면 작업이 완료되어야하며 최종 결과를 얻습니다 출력을보고 도구에 직접 표시하거나로드 할 수 있습니다 창고를 만들고 그것을 수행하고 X를 맨 위에 놓습니다 Hadoop이 실제로 작동하는 방식입니다

얘들 아 그래서 이것은 당신을위한 하둡입니다 이제 신속하게 프로세스 이름 지금까지 Hadoop은 두 가지 서비스 스토리지 및 처리 따라서 스토리지를 제공하는 팀을 HD FS라고하며 팀 이것은 당신이 처리 할 수있게 해주는 것이 마스터이기 때문에 다시 생산합니다

슬레이브가 마스터가되고 HDFS가 이름 노드로 호출되고 슬레이브가 나를 호출됩니다 슬리브를 MapReduce의 데이터 노드라고하며 마스터는 작업이라고합니다 트래커와 슬리브를 tasktracker라고 부르며 저장 용으로 이름이 있습니다 노드 및 마스터 노드로 구성되며 처리시에는 작업 추적기 및 tasktracker 간단한 물건은 인생이 여기에 아주 아주 쉽지 않은가? 이 특별한 셋업은 당신이 쓸 수있는 한 가지 심각한 제한이있었습니다 당신이 그것을 좋아하든 싫어하든 관계없이 MapReduce의 프로그램 당신은 오직 MapReduce 나 다른 프로그램에서 쓸 수있는 프로그램을 작성할 수 있습니다 MapReduce하지만 다른 것을 가질 수는 없으므로 간단한 예를 들어 봅시다

내가 제대로 된 남자 같은 평신도라는 것을 보자 이제 내 남자 중에 문제가있다 아이폰 나쁜 트리 그래서 난 그냥 새로운 나쁜 살 수있는 나무와 내 아이폰에 넣어 그래서 정상적인 사람이 가게에 걸어 구매 분명히 옳지 않은 아이폰에 대한 나쁜 트리는 애플이 말하기 때문이다 당신이 내 휴대폰을 사용하고 싶다면 내 배터리 만 사용해야합니다 그것을 좋아하거나 그것을 좋아하지 않는다면 당신은 나쁜 나무를 살 수 없다

그녀는 Hadoop을 사용하기를 원한다면 전화도 매우 유사합니다 Hadoop은 친구라고 할 것입니다 그것을 사용하되 당신 자신과 MapReduce를 표현해야한다 왜냐하면 그것이 Hadoop one point X라고 불리는 이유지만, 정말로 원했던 것은 더 좋은 무엇인가이었습니다 그래서 우리는 다른 버전의 Hadoop에 스토리지가 있었지만 MapReduce 대신 새로운 구성 요소가있었습니다

충돌은 자원 관리자 및 노드 관리자 이외의 것입니다 지금 원사는 어디서나 할 수있는 자원을 줄 것이라고 말하는 곳에서 MapReduce Blanca는 Hadoop의 한 점 X에서 그렇게 중요하지 않습니다 MapReduce가 Hadoop에서 MapReduce를 가리키는 유일한 방법이었습니다 그것들을 되풀이하여 하둡 하나에 집중하십시오 point x ma는 Hadoop의 유일한 두 점을 줄입니다

X MapReduce는 방법 중 하나입니다 이제이 코스는 모두 약 2 포인트 X이고 우리는 논의하지 않을 것입니다 한 점 X와 내가 한 점 IX를 설명한 이유는 나쁜 건강을 설명하는 좋은 건강을 설명 할 수 있을까요? 내가 XI를 가리켜 야한다고 설명해야한다면 매우 힘들 수 있습니다 당신에게 한 점 X와 거기에 대한 심각한 한계를 보여줍니다 2 점 X를 가져와 두 점 X는 기본적으로 일반적인 자원 관리자입니다

리소스가 필요한 모든 사람들이 와서 리소스를 제공 할 것입니다 당신은 일을 할 수 있습니다 그래서 X를 가리키는 방법이 실제로 작동합니다 그래서 보도록하겠습니다 Hadoop의 프로세싱 파워에서 X를 가리키고 여기에 V를 master 리소스 관리자라고도하는 우리는 잠자기에서 전자를 가지고 있으므로 내 저장 계층 여전히 DITA를 쓰는 것과 거의 같습니다

처리하지만 내가 일하는 마스터에 내 직업을 제출하면 Yancy의 헤이 남자 나는 잘 모른다 MapReduce를 실행하는 방법은 없지만 할 수있는 자프 마스터라고 불리는 사람을 알고 있습니다 MapReduce for me 그래서 저는 리소스 관리자입니다 사람들에게 자원 처리하는 법을 모르지만 다른 사람을 안다 Zap Master라고 불리는 그는 그 일을 할거야

그래서 지금은이 앱 마스터가 이제 잠을 자면 앱 마스터를 초기화 할 것입니다 근본적으로 책임있는 일을하는 과정 그 일을 위해 앱 마스터 야 그래서 얀 마스터가 헤이 앱 마스터를 본다 나는 새로운 것을 가지고있다 당신을 위해 일하는 것은 어때? 잘 Gouri 3 월 2 NC 보스 만약 당신이 나를 위해 일을하고 싶지 Logged 나에게 다음과 같은 것들을 주시길

그러니 슬론에 대한 두 가지 자원을 하나의 자원으로 주 옵소서 슬레이브에서 하나의 리소스로 슬립 3에서 하나의 리소스 슬레이브에 왜 데이터 지역이 중요하기 때문에 연의 마스터는 괜찮습니다 자원과 그 주인은 앞으로 나아갈 수 있고 아이디어를 도처에 발사 할 수 있습니다 여기 연의 마스터는 자원을 제공하는 직업을 수행하지 않습니다 당신을위한 얀이 전체 세부 사항에 관한 한 가지 더 있습니다

한 지점에서 X MapReduce가 X MapReduce를 가리키는 유일한 방법입니다 그렇다면 왜 2 포인트 X를해야할까요? 그 사람들처럼 단순한 삶을 나는 아주 간단한 예를 들어 줄 것입니다 회사는 발 팬더라고 불렀습니다 음식 팬더는 발 배달을하는 회사입니다 피자 헛을 부르면 이제는 소변을 볼 수 있습니다

하지만 발 팬더를 부르면 다른 어떤 포효 소리도들을 수 있습니다 그래서 원사를 발 연못으로 생각하는 걸 어떻게 보는지 나는 발을 들지 않지만 나는 사람들에게 음식 서비스를 제공하여 언제든지 주문할 수 있습니다 그들은이 설명을 통해 하둡의 전체 풍경과 건축 작업 관점이 세션에 참석해 주셔서 감사합니다 얘들 아 다음 수업에서 만나 줘서 고마워 영화 감상은 아래에 의견이 있으면 의견을 나누고 공유 하시겠습니까? 그리고 우리는 가능한 한 빨리 그들에게 반응 할 것입니다 또한 intel bat에 가입하십시오 채널을 통해 최신 기술을 지속적으로 업데이트 할 수 있습니다

다른 관련 동영상과 재생 목록을 통해 자세한 정보를 얻을 수도 있습니다 지속적인 웹 사이트 방문

Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Introduction | Intellipaat

따라서 Hadoop은 프레임 워크입니다 우리는이 모듈에서 Hadoop과 Hadoop의 다른 구성 요소를 이해할 것입니다

그런 다음 HDFS라고하는 첫 번째 중요한 구성 요소로 이동합니다 또는 Hadoop 분산 파일 시스템 따라서 Hadoop은 다음을 구성하는 프레임 워크입니다 여러 도구와 객체가 합쳐져서 Hadoop이됩니다 생태계

이제 이들은 Hadoop의 중요한 구성 요소 중 일부입니다 나는 이것이 모든 구성 요소라는 말은 아닙니다 따라서 전체 프레임 워크로 구성된 Hadoop의 다양한 구성 요소가 있습니다 그 중에서 중요한 핵심 구성 요소가 있습니다 그들 없이는 우리가 실행할 수없는 구성 요소없이 Hadoop 시스템

핵심 구성 요소에 대해 말하면 기본적으로 HDFS입니다 Map Reduce 및 Yarn 이를 통해 시스템에 데이터를 저장하고 처리 할 수 ​​있습니다 Hadoop은 기본적으로 클러스터입니다 우리는 현실 세계에서 클러스터를 정의 할 것입니다

여기서 우리는 여러 노드에 데이터를 저장할 것입니다 그래서 클러스터는 단지 하나의 그룹에 지나지 않습니다 의 기계 단일 노드 클러스터는 아니지만 함께 작동하는 시스템 그룹입니다 거대한 저장이 불가능하기 때문에 데이터를 저장하고 처리 할 수 ​​있습니다

단일 노드의 데이터 양 그래서 대체 무엇입니까 가장 좋은 대안은 데이터를 여러 노드로 나누어서 데이터를 HDFS에 저장하는 방법을 확인하십시오 저장 레이아웃으로 스토리지 레이아웃에 데이터를 저장하는 방법

그래서 그 목적을 위해 HDFS를 사용합니다 주로 HDFS가 그 이유입니다 데이터를 저장하고 모두 HDFS에 데이터를 저장합니다 플랫 파일 시스템으로 사용하기 때문에 파일 시스템과 유사합니다 linux 파일 시스템으로 특정 폴더를 계층 구조 형식으로 정의하고 해당 폴더 안에 파일을 저장하십시오

오늘 우리는 HDFS에 대해 배우게 될 것입니다 HDFS에서 데이터를 읽고 쓰는 방법 어떤 금액을 저장할 수 있도록 HDFS에 데이터를 저장하는 방법 우리의 Hadoop 클러스터에있는 데이터의 HDFS 위에, 우리는 원사라는 메커니즘을 가지고 있습니다 원사는 기본적으로이 도표에 표시되지 않습니다 그래서 HDFS, 이것은 기본적으로 2

X 용 apache hadoop 생태계가 말할 수있는 것입니다 이전 다이어그램은 이전 버전의 Hadoop과 더 관련이 있습니다 그래서 현재, 우리는 HDFS를 저장 계층으로보고 있습니다 아래쪽 레이어는 HDFS입니다 데이터

그런 다음 Yarn이라는 또 다른 프레임 워크가 있습니다 자, 원 사는 프레임 워크입니다 사용할 수있는 데이터에 대한 데이터를 처리 할 수 ​​있습니다 HDFS의 여러 노드에있는 다른 노드 그래서 말뚝으로, 나는 하나의 단일 서버에 전체 더미

제가 말씀 드렸다시피, HDFS는 기계 나는 하나의 노드에 전체 데이터 나 파일을 보관하지 않고 배포 할 것입니다 여러 노드에서 내 데이터 예를 들어, 1000 개의 프로필 레코드가있는 경우, 그 4 서버에 1000 기록 어떤면에서는 250 개의 레코드를 넣을 수 있습니다

각각은 각 데이터 노드 또는 각 데이터 서버에 있습니다 그래서 나는 내 데이터와 그 이유를 배포 할 것이다 나는 각 데이터 블록에서 프로세스를 실행할 수 있기 때문에 데이터를 배포하고 있는데, 이 데이터의이 조각의 각 블록에 병렬로 간단한 질문을하면, 원한다면 프로세스 (1000)는 순차적으로 그리고 모든 4 블록의 모든 4 블록 레코드는 평행으로 각각 250 개씩 있습니다 어떤 데이터를 할 수 있습니까? 프로세스가 훨씬 빨라 집니까? 4 개의 블록 데이터 또는 1000 개의 단일 블록 데이터를 기록합니다 이 네 개의 데이터 블록은 우리는 각 블록을 병렬로 처리 할 수 ​​있습니다

따라서 전체 데이터를 4 개의 블록으로 나누고 나는이 네 가지 블록에서 같은 과정을 진행하고있다 간단한 비유는 내가 너에게 100 임무를 부여한다면 사람은 일을 끝내기 위해 거의 백일이 걸릴 것입니다 하지만 그 일을 10 명의 사람들로 나눌 수 있다면, 나는 대략적으로 일을 끝낼 수 있습니다 10 일에서 12 일 동일한 논리가 여기에 적용됩니다

우리는 처리 시간을 훨씬 빠르게 달성하기 위해 데이터를 나누어서 내 데이터를 처리하는 데 걸리는 시간 그래서 우리는 Hadoop에서 어떤 양의 데이터라도 저장할 수 있다고 말합니다 데이터를 처리하는 데 걸리는 시간을 줄일 수 있습니다 모든 데이터를 여러 블록으로 병렬 처리 할 수있는 방법 그래서 계획 메커니즘 및 처리 메커니즘은 원사에서 처리합니다 털실은 분산이다 프로세싱 프레임 워크의 방식 map과 같은 다른 도구에서 작성하는 쿼리가 무엇이든간에, 돼지, 그 모든 메커니즘은 데이터를 처리하기 위해 원사의 도움을 필요로합니다

원사는 우리의 데이터를 처리하고 일을 마무리하는 촉진자입니다 이제 여러 도구에서 작성해야하는 쿼리 그래서 map reduce에 코드를 작성할 수 있습니다 코어 자바에서 또는 하이브를 쿼리 도구로 사용할 수 있습니다 돼지를 스크립팅 언어로 사용할 수 있습니다

우리는 쓸 수있다 스파크, 떼기와 같은 여러 가지 다른 형식의 코드 그들의 hadoop 스크립트에서 사용할 수있는 다양한 도구입니다 우리는 하나의 언어로만 코드를 작성할 수있는 그러한 단일 메커니즘에 제한되지 않습니다 사라는 우리가 자바였던 한 언어에만 의존했던 시대입니다 이제 Hadoop에서 사용할 수있는 도구와 옵션이 너무 많습니다

우리가 익숙한 언어 예를 들어 파이썬으로 코드를 작성하고자한다면 파이썬으로 코드를 작성할 수도 있습니다 자바, Python 모든 언어를 코딩 언어로 지정하고 모든 코딩 언어는 Hadoop에 쉽게 적용 할 수 있습니다 코드를 작성하고 코드와 나머지 코드를 실행하기 만하면됩니다 Hadoop 프레임 워크 자체가 관리합니다

그것은 정상적으로 하이브, SQL로 코드를 작성할 수 있습니다 따라서 데이터는 플랫 파일 시스템에 저장됩니다 그러나 구조화 된 방식으로 쿼리를 작성할 수 있습니다 그래서 하이브를 사용하여 쿼리를 작성할 수있었습니다 구조화 된 방식으로 구조화되지 않은 데이터에 적용됩니다

또한 우리는 당신의 SQL 쿼리를 깨뜨릴 수있는 매우 중요한 도구 인 Pig를 가지고 있습니다 매우 작은 단계로 SQL 쿼리의 개별 단계 매우 정상적인 데이터 흐름 형식으로 데이터를 처리하는 방법을 이해할 수 있습니다 그래서 돼지, 하이브는 우리가 데이터를 쉽게 처리 할 수있는 곳에서 배워야 할 중요한 도구입니다 또한 로컬 시스템과 HDFS에서도 작동합니다 큰 일을하고 더 많은 일을하십시오

또한 로컬 파일 시스템에 입찰 할 수 있으므로 논리를 테스트 할 수 있습니다 작은 데이터 세트 중 일부는 사용자가 가기 전에 나타납니다 노력은 무엇입니까 데이터는 오픈 소스와 함께 모여 있습니다 내가 그렇게하지 않으면 그들은 거기에서 무엇을하고 있는지

그것으로 구멍을 파는 것은 기존의 소금입니다 그러고 나서 자신의 패키지를 얻습니다 그렇다면 관련 장소에서 통합 솔루션으로 루프를 찾을 수있는 패키지가 될 수 있습니다 다른 하나와 나는 당신과 같은 모든 회사를 사용하기 위해 돌아왔다

많이 IBM은 다른 회사입니다 그는 자신의 제품과 통합되어 공장으로 만들었습니다 공을 했어 나를 멈춰 줘

나는 당신이 모든 시스템을 통합하고 그들이 통신하고있는 곳에서 페이팔을 만들었습니까? 서로에게 그래서 나는 또한 마이클 회사들이 자사 제품을 통합하기 위해 사용 해왔다 완전한 패키지로 끝낸다 그들이 노조에 주어 졌던 것뿐만 아니라 접혀진 패키지로 작업했을뿐만 아니라 수면에 그리고 나서 우리는 우리가 사는 다른 음식을 걷고 있습니다

내 큰 입은 기계 학습 응용 프로그램입니다 다른 인공 지능 브랜드를 얻을 수있는 시스템 나는 사람들을 내 농산물에 사로 잡았습니다 우리는 그것을 바꿀 수 있습니다 우리는 그것을 빨리 할 수 ​​있습니다 또는 기계 학습 응용 프로그램에있는 양을 피드백 할 수 있습니다

그래서 우리는 몇 가지 예측 분석을 사용할 수 있고 다른 클러스터링을 할 수 있습니다 기술은 우리와 다르게 할 수 있지만 입으로는 삶으로 움직일 수 있습니다 그게 정치적으로 큰 일이라 할지라도 그들이 할 수있는 일이기 때문에 그 일을해야합니다 우리는 너무 많이 읽을 수 있습니다 또한 감사 서비스를 사용할 수 있으며 일부는 그렇게 할 수 있습니다

자동 기능은 일반적으로 데이터 집합에 기본은 그 간단한 데이터베이스 중 하나입니다 또는 하단 섹션에서 우리는 N 평등 테이블로 그것에 대해 이야기 할 것입니다 테이블은 아무것도 아니지만 우리가 하나의 테이블에 모든 데이터를 유지하는 우화를 보여줍니다 당신이 처리 할 수있게하고 니콜 유물을 평상시보다 훨씬 빨리 알아 데이터베이스 시스템 데이터베이스 및 마찬가지로 다른 적은 테이블이 웹 애플리케이션에서 널리 사용되고있다 읽어

우리는 비 국방 주식을 많이 필요로합니다 예를 들어, Amazon 또는 다른 응용 프로그램에 들어간 사례를 예로들 수 있습니다 고객의 바이오스를 다시 한번 정보를 찾는 사람들을 만날 수 있습니다 애플리케이션에서 정보를 매우 빨리 얻어야하므로 사용할 수 있습니다 이러한 데이터베이스를 저장하고 우리는 매우 빨리 그 정보를 추출 할 수 있습니다 정상적인 데이터베이스

그것의 기반 외에도 우리는 한 쌍의 데이터 풀을 가지고 있습니다 이것은 증명 되었기 때문에 다른 데이터베이스의 모든 물건 데이터를 내 사무실로 가져올 수 있습니다 예를 들어 내가 좋은 품질의 데이터베이스에서 무엇을 가져올 지 알고 싶다면 다른 메커니즘을 주문할 수 있습니까? 나는 그것을 줄 수있는 사람들이 쉽게 데이터를 수정할 수 있습니다 그리고 다른 데이터베이스에 들어가기 만하면 그 날을 가져올 수 있습니다 생각 해봐

이 비디오를 얻으십시오 영화는 디아블로 시스템의 대상에 관한 좋은 책이며 하나의 스트리밍 날짜입니다 우리는 그 데이터를 매우 쉽게 수정할 수 있습니다 어쩌구 저쩌구 그 다음 우리는 그것을 처리 할 수 ​​있습니다 그래서 한 가지는 분명합니다

내가 열 필요가 있거나 그 모든 데이터를 고칠 필요가있을 때마다 나는 그것을한다 데이터를 처리 할 수 ​​없기 때문에 데이터를 처리하는 날짜와 우리가 사용하기에 앞서 모든 노드를 끄는 것이 허용되는 재미있는 사육사입니다 내 환경 그래서 모든 노드 사람들이 시스템을 원활하게 잠그기 위해 데이터를 수집하는 방법

그러나 그것은 가난한 봉사를 위해 싸운 사람들이 논쟁 중입니다 나는 중산층이다 우린 좋은 친구 야 그래서 모든 추론과 관리는 누군가에 의해 이루어집니다 나는 당신이 관리 할 수있는 것을 인정했다

세상에 더 많이 추가 할 수 있습니다 시스템의 노드 아래에있을 수 있습니다 그리고 당신은 할 수있는 일에 대해 약간의 변화를 줄 수있는 한 가지 모습이 있습니다 신체 아주 쉽게

그래서 이것은 큰 루프 시스템이고 우리 파티는 기본적으로 제품입니다 그 회사에 모회사인데 내가 다른 사무실과 모든 오픈 소스지만 나는이 모든 회사를하지 않습니다 자살 폭탄 테러로이 모든 오픈 소스 제품들이 하나의 패키지를 작성한 다음 제공하십시오 그래서이 두 가지 패키지 모두에 직접 또는 두 가지 방법으로 설치하는 두 가지 방법이 있습니다 하느님 감사합니다 전화 배급 회사는 다시 적재까지 적극적으로 사용할 수 있습니다 시스템 밖으로 또는 밖으로 그리고 우리는 우리가 할 수 있도록 길고 피 묻은 차이가있을 것입니다 적자와 왜 시간을 마주 치기 위해 IP 비즈니스에 참여하십시오

그래서 뭐야 그래서 내가 할 수있는 것은 모든 것을 가져올 수 있습니다 나는 직접적으로 수비를 했는가 아니면 내 지퍼를 돌릴 수 있었는가? 그래서 그것은 무엇입니까 가져 오기 내보내기는 데이터베이스에만 사용되며 다른 용도로는 사용되지 않습니다 윤활유를 사용하지 않고 모델을 선택하려면 하나만 있습니다

당신이 고칠 생각을 길들인 사람은 먹을 수있는 음식을 사 먹는다 귀하의 시스템은 모두 청취자 데이터베이스 관리 시스템에 속하지만 기록됩니다 귀하의 데이터베이스에서 그들은 서로 큰 비즈니스 플랫폼 플랫폼 나는 적어도 데이터베이스 관리 시스템이 없다는 생각이 들지 않으면 다윈 언어를 볼 수있다 또는 어쩌면 다른 언어로 죽을 수도 있습니다 주요 우선 순위

안경을 읽을 수 있고 직장에 갈 수 있습니다 그런 다음 가져올 수 있습니다 너는 그들에게 간다 내 말은 네가 그걸 네게 줄 수 있다는 뜻이야 당신이 일할 수있는 사람들에 의한 창

그래서 당신은 당신이 주문했을 때 파이썬을 사용할 수있는 방법으로 하나님 께 확장 할 필요가 있습니다 다른 기술 우리는 Ondo에 살기 때문에이 시간 내에이 시간 내에 수정할 수 있습니다 그 모든 데이터가 그것을합니다 스포크를 사용하여 이것을 얻으십시오

음,하지만 그건 데이터에 나쁜 영향을 미칠 것입니다 여러분이 IBM과 플랫폼으로 협력하고 있고 가장 좋은 친구를 원한다면 이걸 얻으면 우린 특종을 사용하여 Blue가 9 월에 영향을 미칠 수 있습니다 스트리밍 데이터를 참조하십시오 그래서 당신은 아무것도 느끼지 않지만 당신은 많은 것을 의미하지 않습니다 그래서 그들은 좋은 데이터가 아니지만

점에 사람을 연결하면 아무런 멈추지 않고 눈을 먹일 수 있습니다 그래서 그들이 원하는 음식이 아닌 것처럼 느끼는 것에 먹이를 줄 누군가는 아닙니다 가져 오기 위해 다른 데이터를 선택할 것입니다 그래서 나는 무엇을 했는가 그러나 나는 그렇다고 생각하는 사람을 선택하지 않았고 그것을 얻었습니다

어떤 기계도 그 과정을 자동화하는 것은 유용하지 않습니다 기계 학습은 별도의 메커니즘이므로 독자가 읽을 수있는 기술 방식입니다 새로운 모델을 좋아하고 만든 데이터로부터 데이터를 이해할 수 있습니다 이것들은 당신이 파는 모든 모델이 아닙니다 특정 두뇌 전부 당신은 떨어져 뛰어 오르지 않을 무언가를 알아낼 수있다 새로운 것의 모형 데이터

예를 들어 내가 최고 상을 찾고자한다면이 데이터 시장에 이미있다 데이터 그 기계 돈을 사용하는 것입니다 20 30 개의 데이터를 정리하면 해당 추세를 쉽게 예측할 수 있습니다 그들이 무엇을 또는 ​​다운로드가 안정 될지를 알아 내고 있는지 하지만 그것은 학습이 너무 많아서 우리가 예전의 데이터를 이해하는 데 도움이되지 않습니다

데이터 따라서 우리는 두 시스템에 데이터를 더 많이 공급할 것입니다 우리는 그 가능성을 이해하고, 너무 많은 돈이 갈 것이라는 것을 정말로 나쁘게 느끼고 있습니다 그들 따라서 두 번째 메커니즘을 사용하여 모든 다른 끝을 찾을 수 있습니다

우리는 그걸 예측할 수 있습니다 이 모든 것들은 모두 꺼져 있지만, 느끼는 모든 과정을 자동화 할 수 있습니다 더하기 같은 우리 모두 했어 네가 그의 변호에 대해 죄책감을 느낀다면 나는 니콜라스에게 기뻐 언제 데이트 할 필요가 있는지 알기 위해 이것을 얻을 수있었습니다

그런 다음 해당 데이터 곰팡이에 개를 실행하여 데이터 내에서 다른 곳으로 작업을 업로드해야합니다 골프 기술 및 골프 그리고 나서 사진은 골프를 치기는하지만 두 가지 방법이 있습니다 수동으로 또는 모든 시스템에서 모든 골프를 워크 플로의 단일 파일로 메커니즘을 사용하면 내 아기에게 모든 프로그램을 주문하기 쉽습니다 첫 번째 두 번째와 세 번째가 완료되면 다른 하나가 순서대로 아마도 당신은

그러나 그것은 당신이 알고있는 하나씩 골프 코스를 운영 할 수있게 해주는 것입니다 당신은 그것을 할 Leslie는 또한 어떻게 그녀가 그렇게했는지 확신 할 수 있도록 자신의 직업을 수행합니다 아무에게도 한 발을 내주기가 어렵습니다 종종 나는 갭 분석이 가능해질 것이라고 생각합니다

너도 알다시피, 이것이 큰일이다 나는이 모든 것을 다 통과했습니다 그래서 나는 다시 매우 긍정적으로 변했습니다 자동화 할 수 있다고 생각할 때 사용할 수있는 모든 도구가 있습니다 당신은 그것과 별개로 분석을 할 수 있습니다

Spock과 공과 같은 다른 많은 그룹이 있습니다 Spock 로컬 박스와이 상자와 같은 다른 도구에 시간을 할애해야합니다 당신은 메모리 프로세싱에서 어떤 것을 할 수 있습니다 우리 아빠는 Spock과 Moffat을 Spock과 비교하려고했는데 내 부스보다 훨씬 빠릅니다 왜냐하면 그것이 기억에 남을 것이기 때문입니다

그러나 Bob과 Spock을 잡는다면, 더 많은 메모리가 필요하거나 더욱 더 그래서 우리가 누군가를 목표로 삼을 수 있다면 Spock에서 뛰고 싶을 것입니다 나중에 어느 날 그것을 전달하고 싶습니다 나는 가제트와 메모리 또는 유령 기계를 방해하는 메커니즘을 남기지 않을 것입니다 너는 그 자리에 앉는다

그러나 바그다드에 우리가 기획하고지도 작성하거나 할 수있는 것을 얻을 수있는 것만 큼 크지는 않습니다 우리는 그 벌금을 줄 였지만 두 번째 지연의 한 부분을 인쇄했습니다 우리가 한 수학에서 2 분만에 100 분이면, 나는 그것을 할 수 있습니다 2 분 또는 3 분 후에 꺼집니다 그래서 종이에서 제 생산물을 시작하는 강렬한 양입니다

내 생산물이므로 사용할 수있는 많은 도구가 있습니다 Amazon Web Services 아무에게도 선이있을 것입니다 우리가 계산할 수있는 모든 것은 아마존에서 관리합니다 누군가는 당신이 관리 할 수 ​​있고 지배 할 수있는 도구입니다

그래서 넌 할 수있어 그리고 저는 그 시스템의 일부분이었습니다 관리자와 제목은 어떻게 운영됩니까? 그들은 원한다 당신이 할 수있는 한 가지는 당신이 시스템을 찾을 수 있도록해야합니다

당신은 누군가의 누군가를 그렇게 할 수 있습니다 그것은 그것이 보였던 것처럼 주문받습니다 이상 주의적 불평등이란 얼마나 오래 서로 알고 지내는 데 소비했는지에 관한 것이 었습니다 다른 좋은 몸 내가 돈이나 돈을 버릴 사람이 아닐지라도 내파 된 몸에 당신의 주요된다

나는이 비디오를 통해 당신이 즐겁게 배웠을 것이라고 확신합니다 동영상을 좋아하시겠습니까?이 동영상에 대한 의문 사항이 있으면 의견을 남기십시오 우리는 코멘트 섹션에 그리고 우리의 채널을 구독하는 것을 잊지 말고 더 많은 유익한 비디오를 보게하십시오 우리의 재생 목록에있는 다른 관련 동영상

자세한 내용은 당사 웹 사이트를 방문하십시오 이제는 인텔에 대해 계속 배우십시오

Learn Data Science Tutorial – Full Course for Beginners

데이터 과학에 오신 것을 환영합니다 나는 바튼 폴슨이고 우리가하려고하는 것은 무엇인가? 이 과정에서해야 할 일 우리는 간단하고 접근 가능하며 기술적이지 않은 개요를 가질 것입니다

데이터 과학 분야 이제 사람들은 데이터 과학을들을 때 생각을 시작합니다 같은 것들 : 데이터 및 방정식과 숫자의 더미에 대해 생각하고 상단에 던져 연구실에서 근무하는 사람들에 대해 생각해보십시오 나를 위해서가 아니야 나는 기술적 인 사람이 아니며 단지 너무 기술적 인 것처럼 보입니다

잘, 여기 중요한 사실을 알고 있습니다 많은 사람들이 실제로 해고당하는 동안 데이터 과학의 기술적 측면은 중요한 것은 데이터 과학은 기술 분야는 많지만 창조적입니다 그리고, 사실 그건 사실입니다 내가 말하는 이유 그 이유는 데이터 과학에서 코딩과 통계에서 나온 도구를 사용하기 때문입니다 수학 그러나 그것들을 사용하여 창조적으로 데이터로 작업하십시오

아이디어에는 항상 더 많은 것이 있습니다 한 가지 방법으로 문제를 해결하거나 질문에 답하는 것보다 가장 중요한 것은 통찰력을 얻는 것입니다 목표를 달성하는 방법에 관계없이 목표는 데이터에서 통찰력을 얻는 것입니다 과 다른 많은 것들과 비교할 때 데이터 과학을 독창적으로 만드는 것은 당신이 듣고 자하는 것입니다 표준 접근 방식에 쉽게 맞지 않는 경우에도 모든 데이터에 적용됩니다 분석 및 이유에 훨씬 포괄적 이도록 노력하는 패러다임 당신이하고 싶다는 것은 모든 것이 의미하기 때문입니다

모든 것이 의미를 전달하고 모든 것이 주변에서 일어나는 일에 대해 더 많은 이해와 통찰력을 줄 수 있습니다 그래서이 과정에서 우리가하려고하는 것은 당신에게 데이터 분야에 대한지도를 제공하는 것입니다 과학과 당신이 그것을 사용할 수있는 방법 그래서 지금 당신은 당신의 손에지도를 가지고있다 그리고 당신은 할 수있다

데이터 사이언스로 갈 준비를하십시오 데이터 과학 : 소개로 돌아온 것을 환영합니다 그리고 우리는 데이터 과학을 정의함으로써이 과정을 시작할 것입니다 그건 의미가 있습니다 그러나 우리는 재미있는 방식으로 일을하려고합니다

내가 얘기 할 첫 번째 것은 데이터 과학에 대한 수요 자, 잠깐 살펴 보겠습니다 이제 데이터 과학을 정의 할 수 있습니다 몇 가지 방법으로 짧은 정의를 드리겠습니다 내 정의에 하나 가져 가라

데이터 과학은 적용된 설정의 코딩, 수학 및 통계입니다 그건 합리적이다 작업 정의 하지만 좀 더 간결 해지고 싶다면 두 가지를 정의 그 데이터 과학은 당신이 생각하지 않은 다양한 데이터 또는 데이터의 분석입니다

표준 분석 접근법에 적합합니다 그것에 대해 생각할 수있는 세 번째 방법은 데이터 과학은 포괄적 인 분석입니다 여기에는 모든 데이터, 모든 당신은 당신의 연구 문제에 대해 가장 통찰력 있고 설득력있는 답을 얻기 위해 가지고 있습니다 자, 당신은 스스로에게 "기다려 그게 다야?"라고 말할지도 모릅니다 글쎄, 네가 감동하지 않는다면 몇 가지 것을 보여줍니다 첫째로,이 기사를 보자 그것은 말합니다, "데이터 과학자 : 21 세기의 가장 섹시한 직업 "이라고 말했습니다

이것은 하버드 비즈니스에서 나왔습니다 리뷰 그래서 이것은 권위있는 소식통이며 이것은이 말의 공식 출처입니다 : 그 데이터 과학은 섹시합니다! 자, 다시 말하면, 너 자신에게 "섹시한? 나는 거의 그렇게 생각해 "오 그래, 섹시하다 그리고 데이터 과학이 섹시하다는 이유는 첫째, 드문 자질을 가지고 있으며, 두 번째로 높은 수요가 있습니다 저에 대해서 좀 더 이야기하겠습니다 드문 자질은 데이터 과학이 비 체계적인 데이터를 취한 다음 순서, 의미, 및 데이터의 값

그것들은 중요하지만, 만나기가 쉽지 않습니다 둘째, 높은 수요 데이터 과학이 통찰력을 제공하기 때문에 수요가 높은 이유는 당신과 비판적으로 진행되는 일에 경쟁 우위를 제공합니다 비즈니스 환경에서 큰 일이다 이제 다시 돌아가서 수요에 대해 조금 더 이야기하겠습니다

몇 가지 다른 출처에 대해 살펴 보겠습니다 예를 들어 McKinsey Global Institute 매우 잘 알려진 논문을 발표 했으므로이 URL로 얻을 수 있습니다 그리고 네가 가면 그 웹 페이지,이게 올거야 그리고 우리는 잠시 살펴볼 것입니다 이 중역 요약입니다

다운로드 할 수있는 PDF 파일입니다 그리고 그걸 열면 이 페이지를 찾을 수 있습니다 그리고 오른쪽 하단 모서리를 살펴 보겠습니다 두 숫자 여기, 나는 그것들을 확대 할 것입니다 첫 번째 질문은 다음 몇 년 동안 140 ~ 190,000 명의 깊은 분석 인재를 배출했습니다

따라서 이것은 실제 데이터 과학자를 훈련시키는 것을 의미합니다 그것은 엄청난 숫자입니다 그러나 거의 10 번 150 만명이 넘는 데이터 이용자가 큰 관리자를 필요로합니다 미국의 데이터 이제는 반드시 분석을 수행하지 않는 사람들입니다 데이터를 말해야하는 사람들을 이해해야합니다

그리고 그것은 주 목적 중 하나입니다 이 특정 과정의 실습 데이터가 될 수도 있고 아닐 수도있는 사람들을 돕는 것입니다 과학자들은 데이터에서 얻을 수있는 것을 이해하고 사용 된 방법 중 일부를 배웁니다 거기까지 LinkedIn의 다른 기사를 살펴 보겠습니다 여기에 바로 가기가있다

URL을 입력하면이 웹 페이지로 연결됩니다 "가장 열띤 25 가지 직업 기술 2014 년에 고용 된 사람들 "그리고 여기 1 위를보세요 : 통계 분석 및 데이터 마이닝, 데이터 과학과 밀접한 관련이 있습니다 그리고 분명히 밝혀졌습니다 이것은 숫자였습니다

호주, 브라질, 캐나다, 프랑스, ​​인도, 네덜란드, 남아프리카 공화국, 아랍 에미리트 연합 및 영국 어디에나 그리고 만약 글래스 도어 (Glassdoor)를 보자 2016 년, 그리고 그것은 "미국 최고의 25 가지 직업"에 관한 것입니다 그리고 제일 오른쪽을보세요

여기, 그것은 데이터 과학자입니다 그리고 우리는이 정보를 확대 할 수 있습니다 거기가는 중이 야 1,700 개의 일자리가 창출되며 평균 기본급은 116,000 달러가 넘고 멋진 경력 기회와 직업 점수 당신이이 모든 것을 함께하고자한다면, 결론은 도달 할 수있는 것은 데이터 과학이 지불한다는 것입니다

그리고 나는 그것에 대해 좀 더 보여줄 수 있습니다 그래서 예를 들어, 여기에 미국에서 얻은 최고 10 대 급여의 목록이 있습니다 뉴스 우리에게는 의사 (또는 의사), 치과 의사 및 변호사 등이 있습니다 이제 데이터를 추가하면 O'Reilly

com의 데이터를 사용하여이 목록의 과학자 인 우리는 상황을 푸시해야합니다 그리고 들어간다 평균 총 급여로 3 분의 1 (우리가 다른 하나의 기초가 아니라 전체 보상금)은 1 년에 약 14 만 4 천 달러입니다 그건 특별합니다 그래서 요약하면, 우리는 무엇을 얻습니까? 이 모든? 우선, 우리는 데이터 과학에 대한 요구가 매우 높다는 것을 알게됩니다

둘째, 우리는 두 전문가 모두에게 긴요 한 필요가 있음을 알게됩니다 그것들은 일종의 연습입니다 데이터 과학자들; Generalists의 경우 언어를 사용하고 무엇을 알고 있는지 할 수 있습니다 그리고 물론, 탁월한 임금 그리고 모두 함께, 이것은 데이터 과학을 만듭니다 강력한 경력 대안 및 당신이하고있는 일에서 당신을 더 잘 만드는 방법

여기 데이터 과학에서 우리는 데이터 과학을 정의하려는 시도를 계속할 것입니다 현장에서 실제로 잘 알려진 것을보고 데이터 과학 벤 도표 이제 원한다면, 당신은 이것에 대해 "재료는 무엇인가?"라고 생각할 수 있습니다 "우리는 먼저 Drew Conway에게 감사의 말을 전하고 싶습니다 이것으로 원본 기사를 보려면이 주소로 이동하십시오

그러나, Drew가 말한 것은 데이터 과학이 세 가지로 구성된다는 것입니다 그리고 그것들을 겹쳐서 놓을 수 있습니다 동그라미는 중요한 교차점이기 때문입니다 여기 왼쪽 상단에 코딩이 있습니다 또는 컴퓨터 프로그래밍, 또는 그는 이것을 '해킹'이라고 부릅니다

오른쪽 상단에는 통계 또는 통계가 표시됩니다 또는 수학, 또는 양적 능력을 일반적으로합니다 그리고 바닥에 도메인 전문 지식, 또는 특정 분야의 실습에 친밀한 친밀감을 가져야합니다 : 비즈니스 또는 건강, 또는 교육, 과학 또는 그와 비슷한 것 여기 중간에 교차로가 있습니다 데이터 과학입니다

코딩과 통계, 수학 및 도메인의 조합입니다 지식 이제 코딩에 대해 조금 더 설명해 보겠습니다 코딩이 중요한 이유는 데이터를 수집하고 준비하는 데 도움이되기 때문입니다 많은 데이터가 소설 출처이며 수집 할 준비가 반드시 필요하지는 않으며 매우 드문 경우 일 수 있습니다

형식 코딩은 중요한 창의력을 요구하기 때문에 중요합니다 소스에서 데이터를 분석에 넣으십시오 자, 몇 가지 종류의 코딩 중요하다; 예를 들어, 통계적 코딩이 있습니다 이 중 몇 가지 주요 언어 R 및 Python입니다

두 가지 오픈 소스 무료 프로그래밍 언어 R, 특히 데이터 용 파이썬 범용이지만 데이터에 잘 맞습니다 데이터베이스 작업 기능은 중요합니다 너무

가장 공통적 인 언어는 SQL이며, 일반적으로 "Sequel"이라고 발음합니다 그것이 데이터가있는 곳이기 때문에 구조화 된 쿼리 언어를 위해 또한 명령이 있습니다 Mac 사용자는 "터미널"이라고 부릅니다 가장 일반적인 언어 실제로 Bourne-again 셸을 의미하는 Bash가 있습니다

그리고 검색은 중요합니다 정규식 또는 정규 표현식 거기에 배울 수있는 엄청난 금액이 없지만 (그것은 작은 필드), 그것은 일종의 super-powered 와일드 카드 검색을 가능하게합니다 데이터를 찾고이를 도움이되는 방식으로 다시 포맷 할 수 있습니다 귀하의 분석

이제 수학에 대해 몇 가지 이야기를 해봅시다 너는 물건이 필요할거야 확률의 조금처럼, 일부 대수학, 물론, 회귀 (매우 일반적인 통계 순서) 그 일은 중요합니다 수학이 필요한 이유는 다음과 같습니다

질문에 대답하기위한 적절한 절차를 선택하는 데 도움이 될 것입니다 당신이 가지고있는 데이터 아마 더 중요한 것은; 진단하는 데 도움이 될 것입니다 일이 예상대로 진행되지 않을 때의 문제 그리고 당신이 새로운 일을하려고하는 것을 감안할 때 새로운 방식으로 새로운 데이터를 사용하면 아마도 문제를 보게 될 것입니다

그래서 능력 무슨 일이 일어나고 있는지에 대한 메 커닉을 이해하면 커다란 이점이 될 것입니다 과 데이터 과학 벤 다이어그램의 세 번째 요소는 일종의 도메인 전문 지식입니다 자신이 속해있는 분야의 전문 지식이라고 생각하십시오 비즈니스 설정이 일반적입니다 당신 해당 필드의 목표, 사용되는 방법 및 제약 조건에 대해 알아야합니다

사람들이 우연히 만난다 결과가 무엇이든 관계없이 중요합니다 그들을 잘 구현할 수 있어야합니다 데이터 과학은 매우 실용적이며 성취하기 위해 고안되었습니다 어떤 것

그리고 특정 실습 분야에 익숙해지면 분석 결과를 구현할 때 훨씬 쉽고 효과적입니다 자, 가자 여기 벤 다이어그램으로 돌아가십시오 Venn이기 때문에 한 번에 두 원의 교차점 맨 위에는 기계 학습이 있습니다

바닥에 권리는 전통적인 연구입니다 그리고 왼쪽 하단에는 Drew Conway가 호출 한 것이 있습니다 "위험 지대" 이 각각에 대해 이야기하겠습니다 우선, 기계 학습, 또는 ML

이제 기계 학습에 대해 생각해 봅니다 여기서는 코딩을 나타내는 것으로 생각합니다 또는 통계 프로그래밍과 수학을 사용하지 않고 실제 도메인 전문 지식을 활용할 수 있습니다 때때로 이를 "블랙 박스"모델이라고합니다 그들은 데이터를 던져 버리고 반드시 그것이 의미하는 바가 무엇인지 또는 언어가 무엇인지를 알아야합니다

그리고 그것은 단지 친절합니다 모두를 통해 위기의 그리고 그것은 당신에게 몇 가지 규칙을 줄 것이다 그것은 매우 도움이 될 수 있습니다 기계 학습은 데이터 과학과 약간 다른 것으로 간주됩니다 특정 도메인에 특정 응용 프로그램을 포함시킵니다

또한 전통적인 연구가 있습니다 여기에는 수학이나 통계가 있으며 도메인 지식이 있습니다 종종 아주 집중적 인 도메인 지식이지만 코딩이나 프로그래밍이 필요 없습니다 이제, 당신은 도망 갈 수 있습니다 기존 연구에서 사용하는 데이터가 고도로 구조화되어 있기 때문에 그러한 점이 있습니다

행과 열로 제공되며 일반적으로 완료되며 일반적으로 분석 할 준비가됩니다 지금 당신은 엄청난 노력을해야하기 때문에 인생이 쉽다는 것을 의미하지는 않습니다 프로젝트의 설계 및 설계 및 데이터의 해석에 사용됩니다 그럼에도 불구하고 매우 무거운 지적인지 적 작업이지만 다른 곳에서 온다 그리고 마지막으로, 콘웨이가 "위험 지대"라고 부르는 것이 있습니다

그리고 그것은 교차점입니다 코딩 및 도메인 지식은 있지만 수학이나 통계는 필요하지 않습니다 이제 그는있을 법하지 않다고 말한다 일어날 수 있고, 그것은 사실 일 것입니다 다른 한편으로, 나는 몇 가지 일반적인 예를 생각할 수 있는데, 대형 문서 또는 일련의 문서를 가져 오는 "단어 수" 거기에 단어가 몇 번 나왔는지 계산해보십시오

그건 사실 알려줄 수 있어요 매우 중요한 것 또한지도를 그려 물건이 장소를 가로 질러 어떻게 변하는지를 보여줍니다 어쩌면 시간이 지날 수도 있습니다 당신은 반드시 수학을 가질 필요는 없지만, 그것은 매우 수 있습니다

통찰력 있고 도움이된다 그래서 사람들이 오는 몇 가지 배경에 대해 생각해 봅시다 여기에서 첫째, 코딩입니다 코더 인 사람들, 수학, 통계학을 할 수있는 사람들, 및 비즈니스

그래서, 당신은 세 가지를 얻습니다 (그리고 이것은 아마 가장 일반적입니다) 사람들은 프로그래밍 배경에서 왔습니다 다른 한편, 통계도 있습니다 통계 또한 코드를 작성하고 비즈니스를 수행 할 수있는 통계 전문가를 확보 할 수 있습니다

그다지 흔하지 않지만 일어난다 마지막으로 데이터에 참여하는 사람들이 있습니다 특정 영역의 과학 그리고 이것들은 예를 들어, 코드 및 할 번호 그리고 그들은 최소한의 공통점이 있습니다

그러나이 모든 것들은 데이터 과학 그리고 합하면, 우리가 빼앗을 수있는 것이 있습니다 첫째, 여러 필드가 up 데이터 과학 둘째, 다양한 기술과 배경이 중요하며 필요합니다 데이터 과학

셋째, 많은 역할이 있기 때문에 관련된 많은 역할이 있습니다 일어날 필요가있는 다른 것들 우리는 다음 영화에서 그것에 대해 더 많이 말할 것입니다 그만큼 데이터 과학 소개의 다음 단계와 데이터 과학의 정의는 이야기하는 것입니다 데이터 과학 통로에 관해

그래서 저는 이것을 당신이 일할 때 생각하고 싶습니다 주요 프로젝트에서, 당신은 한 번에 한 걸음 씩 여기에서 저기로 가야합니다 데이터 과학에서는 다양한 단계를 수행 할 수 있으며 두 단계로 구성 할 수 있습니다 일반 카테고리 첫째, 계획 수립과 관련된 단계가 있습니다

둘째, 데이터 준비 셋째, 실제 데이터 모델링이 있습니다 넷째, 후속 조치가 있습니다 그리고 이들 각각에는 몇 가지 단계가 있습니다 나는 그들 각각을 간단히 설명 할 것이다

먼저 계획에 대해 이야기 해 봅시다 먼저해야 할 일은 프로젝트의 목표를 정의하여 리소스를 잘 사용하는 방법을 알고 있어야합니다 당신은 언제 끝났는지 압니다 둘째, 리소스를 정리해야합니다 그래서 당신은 가질 수 있습니다

몇몇 다른 근원에서 자료; 당신은 다른 소프트웨어 꾸러미를 가지고 있을지도 모른다 다른 사람들이있어 세 번째로 우리를 데려다줍니다 사람들을 조정해야합니다 그래서 그들은 생산적으로 함께 일할 수 있습니다

손을 떼고 있다면 분명해야합니다 누가 무엇을 할 것이며, 어떻게 그들의 일이 함께 할 것인가 그리고 나서, 정말로 분명한 사실을 밝히기 위해서는 프로젝트가 원활하게 진행될 수 있도록 프로젝트 일정을 잡아야합니다 합리적인 시간 내에 끝낼 수 있습니다 다음은 데이터 준비입니다

음식 준비와 같이 먹고 원료 성분을 준비하는 것 물론 처음입니다 데이터를 가져와야합니다 그리고 그것은 많은 다른 출처에서 그리고 많은 다른 것 형식 슬프게도 데이터 정리가 필요합니다

이것은 매우 큰 경향이 있습니다 어떤 데이터 과학 프로젝트의 일부 그리고 그것은 당신이 비정상적인 데이터를 가져 오기 때문입니다 다른 장소에서 또한 데이터를 탐색하려고합니다

즉, 실제로 무엇이 보이는지 얼마나 많은 사람들이 각 그룹에 속해 있는지, 배포판의 모양 마치 무엇과 관련이 있는가? 데이터를 수정해야 할 수도 있습니다 그리고 그 포함 할 변수 선택, 포함 또는 제외 할 사례 선택, 변형 만들기 필요한 데이터로 이동하십시오 그리고 물론 이러한 단계는 앞뒤로 튀어 나올 수 있습니다 하나에서 다른 하나까지 세 번째 그룹은 모델링 또는 통계 모델링입니다

이것은 실제로 통계 모델을 만들고 싶습니다 예를 들어 회귀를 할 수 있습니다 분석을하거나 신경 네트워크를 할 수도 있습니다 하지만, 무엇을 하든지간에 모델을 검증하려면 모델을 검증해야합니다 당신은 홀드 아웃 밸리데이션으로 그렇게 할 수 있습니다

당신 가능한 경우 아주 작은 복제를 사용하여 실제로 그렇게 할 수 있습니다 또한 다음을 평가해야합니다 모델 따라서 모델이 정확하다는 것을 알게되면 모델이 실제로 무엇이며 어떻게 많이 알려주지? 그리고 마지막으로 모델을 수정해야합니다 예를 들어, 버리고 싶은 변수가있을 수 있습니다

어쩌면 당신이 포함하고 싶은 추가 항목 일 수도 있습니다 일부 데이터를 다시 변환 할 수도 있습니다 당신은 그것을 얻고 싶어 할지도 모른다 쉽게 해석하고 적용 할 수 있습니다 그리고 그것은 우리를 데이터 과학 통로의 마지막 부분으로 이끌어줍니다

그리고 그것은 후속 조치입니다 일단 모델을 만들면 모델을 제시해야합니다 그것은 일반적으로 클라이언트를 위해 수행되고있는 작업이기 때문에 집안에있을 수 있습니다 제 3 자 그러나 당신은 당신이 가진 통찰력을 가지고 의미있는 것을 공유해야합니다

다른 사람들과 방법 또한 모델을 배포해야합니다 그것은 보통 순서대로 행해지고있다 뭔가를 달성하기 위해 예를 들어, 전자 상거래 사이트로 작업하는 경우, 당신은 추천 엔진을 개발 중일 것입니다

이것을 살 수도 있습니다 "실제로 웹 사이트에 그것을 붙여야하고 그것이 작동하는지 확인해야합니다 네가 예상했던대로 그런 다음 모델을 다시 방문해야합니다 시간에 따라 작업 한 데이터가 반드시 모든 데이터가되는 것은 아닙니다

현실 세계에서 벗어나거나 시간이 지남에 따라 바뀌면 바뀝니다 그래서, 당신은 모델이 얼마나 잘 작동하는지 확인하십시오 그런 다음 철저히 조사하기 위해 보관해야합니다 자산, 보유하고있는 것을 문서화하고 귀하 또는 다른 사람들이 반복 할 수있게하십시오 미래의 분석 또는 개발

그래서, 그것들은 일반적인 단계입니다 데이터 과학 경로를 고려하십시오 요약하면, 우리가 이것으로부터 얻는 것은 세 가지입니다 첫째, 데이터 과학은 단순한 기술 분야가 아니라 코딩 일뿐입니다 같은 것들, 계획 및 발표 및 실행은 중요합니다

또한 문맥 기술, 특정 분야에서 어떻게 작동 하는지를 알고, 어떻게 구현 될 것인지를 안다 기술도 중요합니다 그리고이 모든 일에서 얻은 것처럼 많은 것들이 있습니다 해야 할 일 한 번에 한 단계 씩 나아가면 역 추적이 줄어들고 궁극적으로 데이터 과학 프로젝트에서 더 생산적 일 것입니다

우리는 계속할 것이다 데이터 과학에 관련된 역할을 살펴봄으로써 데이터 과학에 대한 우리의 정의 다른 사람들이 그것에 기여할 수있는 방법 공동 작업을하는 경향이 있기 때문입니다 우리 모두가 함께 있고, 함께 일하고 있다고 말할 수 있다는 것은 좋은 일입니다

하나의 목표 그럼, 데이터 과학에 관련된 몇 가지 역할과 그들은 프로젝트에 기여합니다 먼저 엔지니어를 살펴 보겠습니다 이것들은 백엔드 하드웨어에 집중하는 사람들 예를 들어, 서버 및 소프트웨어 그것들을 실행합니다

이것이 데이터 과학을 가능하게하는 요소이며, 개발자, 소프트웨어 개발자 또는 데이터베이스 관리자 그리고 나머지 부분을위한 기초를 제공합니다 일의 다음으로 Big Data 전문가 인 사용자를 보유 할 수도 있습니다 이들은 사람들이다

컴퓨터 과학 및 수학에 중점을두고 기계 학습 알고리즘을 수행 할 수 있습니다 매우 많은 양의 데이터를 처리하는 방법입니다 그리고 그들은 종종 불리는 것을 창조합니다 데이터 제품 그래서, 어떤 레스토랑에 가야할지 알려주거나, "너 이 친구를 알 수도 있습니다

"또는 사진을 링크하는 방법을 제공합니다 그것들은 데이터 제품, 그것들은 종종 그들 뒤에 아주 많은 양의 기술적 인 작업을 필요로합니다 또한있다 연구원; 이들은 도메인 특정 연구에 집중하는 사람들입니다 예를 들어, 물리학, 또는 유전학, 또는 뭐든간에 그리고이 사람들은 매우 강력한 통계를 가지고있는 경향이 있습니다

일부 절차와 일부 데이터를 다른 프로세스에서 사용할 수 있습니다 큰 데이터 연구자처럼 사람들은 특정 질문에 집중합니다 또한 데이터 과학 영역에서는 분석가를 찾을 수 있습니다 이들은 일상 생활에 집중하는 사람들입니다 사업 운영의 임무

예를 들어 웹 분석 (Google 애널리틱스와 같은), SQL 데이터베이스에서 데이터를 가져올 수도 있습니다 그리고이 정보는 매우 중요합니다 좋은 사업 따라서 분석가는 일상적인 업무 기능의 핵심이지만 실제로 데이터 과학이 적절하지 않을 수도 있습니다 왜냐하면 그들이 작업하는 대부분의 데이터가 정확하기 때문입니다 은 꽤 구조화 될 것입니다

그럼에도 불구하고, 그들은 일반적으로 비즈니스에서 중요한 역할을합니다 그런 다음 비즈니스에 대해 이야기합니다 당신은 실제 사업 사람들이 있습니다 남녀 누가 사업을 조직하고 운영하는지 이러한 사람들은 비즈니스 관련 프레임을 작성할 수 있어야합니다

데이터로 대답 할 수있는 질문 또한, 사업 담당자가 프로젝트를 관리합니다 그리고 다른 사람들의 노력과 자원 그리고 실제로는 그렇게하지 않을 수도 있습니다 코딩, 그들은 데이터를 말해야합니다; 데이터가 어떻게 작동하는지, 응답 할 수있는 것은 무엇인지, 그리고 그것을 구현하는 방법

당신은 또한 기업가를 가질 수 있습니다 따라서 데이터를 시작할 수 있습니다 그들은 자신의 작은 소셜 네트워크를 시작, 자신의 작은 웹 검색 플랫폼 기업가 데이터 및 비즈니스 기술이 필요합니다 그리고 사실, 그들은 모든 단계에서 창조적이어야합니다

그 길 보통 그들은 더 작은 규모로 모든 일을하고 있기 때문입니다 그럼 우리는 데이터 과학에서 "전체 스택 유니콘 (full stack unicorn)"이라고 알려진 것을 가지고 있습니다 그리고 이것은 사람입니다 누가 전문가 수준에서 모든 것을 할 수 있는지

그들은 진실되게 유니콘이라 불리며, 그들은 실제로 존재하지 않을 수도 있습니다 나는 나중에 그것에 대해 더 말할 것입니다 그러나 지금 당장은, 우리는이 비디오에서 우리가 얻은 것을 세 가지로 요약 할 수 있습니다 1 위, 데이터 과학 다양합니다 거기에 들어가는 많은 사람들이 있고, 그들은 다른 목표를 가지고 있습니다

그들의 일을 위해, 그리고 그들은 다른 기술과 다른 경험을 가져오고 다른 구혼 또한, 그들은 매우 다른 맥락에서 일하는 경향이 있습니다 기업가가 일한다 아주 다른 곳에서 일하는 비즈니스 관리자와는 아주 다른 곳에서 학자 연구원에게서 그러나 이들 모두는 데이터 과학에 어떤 식 으로든 연결되어 있습니다

그리고 그것을 더 부유 한 분야로 만드십시오 "데이터 과학 : 소개"에서 내가 말하고 싶은 마지막 사항 데이터 과학을 정의하려고 할 때, 데이터 과학 팀을 이야기하는 것입니다 그만큼 여기서 아이디어는 데이터 과학이 다양한 도구를 가지고 있으며 다른 사람들이 될 것이라는 것입니다 각자의 전문가 자, 예를 들어 코딩을하고 통계를 얻었습니다

또한 디자인, 사업 또는 경영과 관련된 것으로 느껴질 수 있습니다 그리고 질문은 물론입니다 : "누가 그것을 할 수 있습니까? 누가이 모든 것을 할 수 있습니까? 우리가 필요로하는 수준의 것들? "글쎄, 그것이 우리가이 말을하는 곳이다 (나는 언급했다 그 전에는) 유니콘이에요 고대 역사와 마찬가지로 유니콘은 신화적인 존재입니다 마법의 능력을 가진 생물

데이터 과학에서, 그것은 조금 다르게 작동합니다 신화 적이다 보편적 인 능력을 가진 데이터 과학자 문제는 현실 세계에서 알 수 있듯이, 실제로 유니콘 (동물)이 없으며 실제로는 유니콘이별로 없습니다 데이터 과학

실제로, 사람들이 있습니다 그래서 우리는 우리가 어떻게 할 수 있는지 알아야합니다 비록 우리 모두를 위해 모든 것을 할 수있는 한 사람이 없더라도 프로젝트가 진행됩니다 잠시 동안 가상의 경우를 생각해 봅시다 내가 허구로 너를 줄거야

사람들 여기 내 허구의 사람 오토가 강한 시각화 기술을 가지고 있으며 좋은 코딩이지만, 분석적 또는 통계적 능력이 제한적이다 그리고 그의 물건을 그래프로 표현하면 능력 그래서 여기에 우리가해야 할 다섯 가지 일이 있습니다 그리고 프로젝트를 위해 작동하려면 최소한 0에서 10까지 8 단계가 필요합니다 우리가 그의 코딩 능력을 취하면 거의 다 왔어 통계, 중간 정도는 아닙니다 그래픽, 예 그는 그렇게 할 수 있습니다

그리고 나서, 사업, 어, 괜찮아 그리고 프로젝트, 꽤 좋아 그래서, 당신은 할 수 있어요 여기에서 볼 수 있듯이,이 다섯 가지 영역 중 단 하나만이 오토만으로 충분합니다 다른쪽에 손, 그 사람을 다른 사람과 짝 지어 ​​봅시다

루시를 살펴 봅시다 그리고 루시는 강합니다 비즈니스 교육, 좋은 기술을 가지고 있지만 그래픽이 제한되어 있습니다 그리고 우리가 그녀의 프로파일을 얻으면 우리가 보았던 것과 똑같은, 코딩이 있습니다, 꽤 좋습니다 꽤 좋은 통계

제도법, 별로 잘 했어 그리고 프로젝트 여기 중요한 건 우리는 팀을 만들 수 있습니다 Otto와 Lucy라는 두 명의 가상의 사람들을 생각해 봅시다

그들의 능력을 종합하자 자, 사실 여기서 스케일을 조금 변경해야합니다 둘 다 수용 할 수 있습니다 그러나 우리의 기준은 여전히 ​​8 점입니다 우리는 8 레벨이 필요하다

프로젝트를 유능하게하기 위해서 그리고 우리가 그들을 결합한다면 : 아, 이제 코딩은 지난 8 년 통계는 8 년이 넘었습니다 그래픽 방식은 과거입니다 비즈니스 방식 과거

그리고 나서 프로젝트, 그들은 너무 그래서 우리가 그들의 기술을 결합 할 때, 우리는 레벨을 얻을 수 있습니다 우리는 모든 것을 위해 필요합니다 다른 말로하면, 우리는 이제 유니콘을 만들었습니다 팀에 의해 데이터 과학 프로젝트를 수행 할 수 있습니다

그래서, 요약하면 : 당신 일반적으로 독자적으로 데이터 과학을 할 수는 없습니다 그것은 매우 드문 개인입니다 또는 구체적으로 : 사람들은 사람들을 필요로하며, 데이터 과학에서는 여러 사람들을 집단 유니콘을 만들어 프로젝트에서 필요한 통찰력을 얻을 수 있습니다 그리고 당신은 당신이 원하는 것을 다 할 수 있습니다 더 나은 이해를 얻으려면 데이터 과학의 경우에는 데이터 과학과 다른 분야의 대조를 살펴 보는 것이 도움이 될 수 있습니다

빅 데이터의 경우 가장 유익한 정보는 실제로이 두 용어가 종종 혼란 스럽다 그것은 내가 비슷한 상황에 대해 생각하게합니다 그러나 동일하지 않습니다 이탈리아의 산 카를로 (San Carlo) 피아자 장소에 있습니다 의 일부 문제는 데이터 과학과 빅 데이터 모두가 벤 다이어그램과 관련되어 있다는 사실에서 유래합니다 그들과 함께

예를 들어 Venn은 데이터 과학 분야에서 우리가 본 것입니다 이미 우리는 세 개의 원을 가지고 있고 코딩이되어 있으며 수학이 있으며 도메인이 있습니다 전문 지식, 함께 데이터 과학 반면에 벤 다이어그램 2 번 빅 데이터 용입니다

또한 세 개의 원이 있습니다 그리고 우리는 많은 양의 데이터와 빠른 데이터를 가지고 있습니다 데이터 속도 및 다양한 데이터를 제공합니다 그 3 개의 v를 함께 가져라 당신은 빅 데이터를 얻습니다

이제 세 번째 Venn Diagram에서 원한다면이 둘을 결합 할 수 있습니다 빅 데이터 (Big Data and Data Science)라고 부릅니다 이번에는 단지 두 개의 원입니다 빅 데이터로 왼쪽에는 데이터 과학이, 오른쪽에는 데이터 과학이 있습니다 그리고 중간에 교차로, 빅 데이터가 있습니다

과학, 실제로는 진짜 용어입니다 그러나 비교와 대비를 원한다면, 당신이 다른 사람없이 하나를 가질 수있는 방법을 보는 것이 도움이됩니다 자, 시작하자 데이터 과학없이 빅 데이터를 살펴 봅니다 그래서, 이것들은 여러분이 가질 수있는 상황입니다

볼륨 또는 속도 또는 다양한 데이터가 있지만 데이터 과학의 모든 도구가 필요하지는 않습니다 그래서 방정식의 왼쪽을보고 있습니다 자, 진실하게,이 3 개의 V가 모두없는 큰 데이터가있는 경우에만 작동합니다 어떤 사람들은 당신이 책을 가지고 있어야한다고 말한다 속도 및 다양성을 Big Data로 계산합니다

나는 기본적으로 말하지 않는 것을 말한다 아마도 표준 데이터베이스는 Big Data 일 것입니다 몇 가지 예를 생각해 볼 수 있습니다 빅 데이터 (Big Data)로 간주 될 수있는 것들에 대해서는 여기에 있지만 데이터 과학으로 간주되지는 않습니다 기계 매우 큰 데이터 세트를 가질 수 있고 매우 복잡 할 수도있는 곳에서 대단히 도메인 전문성이있어 데이터 과학이 아닐 수도 있습니다

당신이 가지고있는 단어 카운트 엄청난 양의 데이터와 실제로는 매우 간단한 분석이므로 다시는 필요하지 않습니다 양적 기술이나 도메인 전문성 측면에서 훨씬 정교합니다 어쩌면 / 아마도 데이터 과학이 아닙니다 다른 한편으로, 이들 중 어떤 것을하기 위해서 당신은 적어도 두 가지 기술 코딩이 필요할 것입니다

일종의 양적 기술을 보유하고 있습니다 그렇다면 빅이없는 데이터 과학은 어떨까요? 데이터? 그것이이 다이어그램의 오른쪽입니다 글쎄, 당신이 아마 일어날 수 있도록 Big Data의 세 가지 V 중 하나만 사용하여 데이터에 대해 이야기합니다 따라서 볼륨 또는 속도 또는 다양성, 그러나 단 하나 그래서 예를 들어, 유전학 데이터

엄청난 양의 데이터가 있습니다 매우 세팅 된 구조로되어 있으며 한 번에 들어올 수 있습니다 그래서, 당신은 많은 것을 가지고 있습니다 볼륨과 함께 작업하는 것은 매우 어려운 일입니다 당신은 데이터 과학, 빅 데이터로 간주 될 수도 있고 그렇지 않을 수도 있습니다

마찬가지로 데이터가있는 스트리밍 센서 데이터 매우 빨리 들어오지 만 반드시 저장하는 것은 아닙니다 너는이 창들을보고있다 그 안에 속도가 너무 빠르며 다루기가 어렵고 데이터를 필요로합니다 과학, 전체 기술 집합이지만 Big Data 자체는 필요하지 않을 수 있습니다

또는 얼굴 인식, 당신은 사진이나 비디오를 가져 오기 때문에 데이터가 엄청나게 다양합니다 다시 들어 오기가 어렵고, 독창성과 독창성이 많이 필요합니다 당신이 정의에 얼마나 많은 영향을 미치는지에 따라 Big Data로 간주 될 수도 있고 그렇지 않을 수도 있습니다 자, 두 가지를 결합하고 싶다면 Big Data Science에 대해서 이야기 할 수 있습니다 이 경우, 우리는 바로 여기에서 찾고 있습니다

이것은 볼륨이있는 상황입니다 속도 및 다양성을 제공하고 진실하게, 만약 당신이 그 중 3 개가 있다면, 당신은 가고 있습니다 전체 데이터 과학 기술 세트가 필요합니다 당신은 코딩과 통계가 필요할 것입니다 그리고 수학, 그리고 당신은 도메인 전문 지식을 가지고 있어야합니다

주로 당신이 다루는 다양성, 그러나 모두 함께 가져 가면 모든 것을 가질 수 있습니다 그래서 요약하면, 여기에 우리가 얻는 것이 있습니다 빅 데이터는 데이터 과학과 동일하지 않습니다 이제는 공통점이 있으며 빅 데이터를 잘 다루는 많은 사람들이 잘하고 있습니다 데이터 과학 및 그 반대로, 개념적으로 구별됩니다

한편, 두 개의 개별 분야를 통합하는 빅 데이터 사이언스의 공통된 중점이 있습니다 데이터 과학을 이해하려고 시도 할 때 또 다른 중요한 차이점은 그것은 코딩 또는 컴퓨터 프로그래밍과 함께 자,이 곳에서 당신과 함께 일하려고합니다 기계와 당신은 그 기계와 대화하려고 노력하고 있습니다 어떤 의미에서 코딩은 작업 지시 사항을 제공하는 것으로 생각할 수 있습니다

어떻게하는지 이것은 요리 할 때 조리법을 좋아하십시오 일종의 사용자 입력이나 다른 입력을받습니다 그리고 아마도 if / then 로직을 가지고있을 것이고, 당신은 그것으로부터 출력을 얻을 것입니다 극단적으로 취하기 간단한 예를 들어, Python 버전 2로 프로그래밍하고 있다면, 다음과 같이 쓴다 : print, 그리고 나서 따옴표 안에 "안녕, 세상!" "Hello, world!"라는 단어를 넣을 것입니다

화면에 그래서, 당신은 그것은 약간의 지시와 당신에게 약간의 출력을 줬다 아주 간단한 프로그래밍 자, 코딩 데이터가 좀 더 복잡해집니다 예를 들어, 단어 수가 있습니다

너는 책이나 책 전체를 가져 가면, 너는 그 말을 듣고 너는 몇 권을 셀까? 거기에있다 이제 개념적으로 간단한 작업이며 도메인 전문 지식과 실제로 수학 및 통계는 중요하지 않습니다 그러나 유효한 추론과 일반화를 만들기 위해서 데이터의 변동성과 불확실성에 직면하여 통계가 필요하며, 데이터 과학이 필요합니다 두 도구를 비교하는 데 도움이 될 수 있습니다 거래

예를 들어 코딩이나 일반적인 컴퓨터 프로그래밍을위한 도구가 있습니다 데이터 과학을위한 도구가 있습니다 제가 여기있는 것은 목록입니다 IEEE의 상위 10 개 프로그래밍 언어 2015 년 그리고 그것은 자바와 C에서 시작하고 간다

쉘까지 내려 갔다 그리고 이들 중 일부는 데이터 과학에도 사용됩니다 그래서 예를 들어, 파이썬 R과 SQL은 데이터 과학에 사용되지만 다른 것들은 데이터 과학에서 중요하지 않습니다 실제로 데이터 과학에서 가장 많이 사용되는 도구 목록을 살펴 보겠습니다 그리고 그 것들이 조금씩 움직이는 것을 볼 수 있습니다

자, R이 맨 위에 있고, SQL이 있고, 파이썬이있다 거기에 있지만, 저에게 가장 흥미로운 것은 Excel이 5 위라는 것입니다 그 자체로 프로그래밍으로 간주되지는 않을 것이지만 실제로는 매우 중요합니다 데이터 과학을위한 도구 그리고 그것이 우리가 비교하고 비교할 수있는 방법 중 하나입니다 데이터 과학을 이용한 컴퓨터 프로그래밍

요약하면, 우리는 이것을 말할 수 있습니다 : 데이터 과학은 코딩과 동일합니다 그것들은 다른 것들입니다 다른 한편으로는, 그들은 도구를 사용하고 데이터를 코딩 할 때 특히 관행을 공유합니다 반면에, 거기 그 통계에서 하나의 매우 큰 차이입니다, 통계 능력은 주요 구분 기호 중 하나입니다 범용 프로그래밍과 데이터 사이언스 프로그래밍 우리가 데이터에 관해 말할 때 과학과 우리는 일부 분야, 많은 사람들이 혼란스러워하는 또 다른 분야와 대조합니다 그들은 데이터 과학 및 통계와 같은 것이라고 생각합니다 자, 내가 너에게 말할거야

공통점은 많이 있지만, 우리는 서로 다른 초점에 대해 조금 이야기 할 수 있습니다 마다 그리고 우리는 또한 데이터 과학이 다른 정의 론적 문제에 빠지게됩니다 왜냐하면 우리는 둘 사이에 공통점이있을지라도 다르게 정의하십시오 그것 각 분야에서 진행되는 일들 중 일부를 살펴 보는 데 도움이됩니다

자, 시작하겠습니다 여기 통계에 대해서 여기에 작은 원을 넣으면 데이터 과학을 넣을 것입니다 그리고, ~에 스티븐 제이 굴드 (Steven J Gould)의 용어를 빌리 자

수암 그래서 여러분은 그것들을 별개의 것으로 생각합니다 서로 할 수 있습니다 하지만 알다시피, 그것은 옳지 않은 것처럼 보입니다 그 중 일부는 데이터 과학 다이어 다이어그램으로 돌아 가면 통계도 그 중 하나입니다

거기는 상단 구석에 이제 우리는 무엇을해야합니까? 그 관계가 뭐야? 그래서, 이들은 완전히 별개의 영역이라고 할 수 있습니다 아마도 데이터 과학 및 통계 일 수 있습니다 그들은 절차를 공유합니다 어쩌면 데이터 과학은 통계의 하위 집합이나 전문 분야 일 것입니다

이런 식으로 그러나 데이터 과학이 통계 내의 일부 또는 전문 분야 일 경우 모든 데이터 과학자가 먼저 통계 학자가 될 것이라고합니다 그리고 흥미롭게도 그것은 그렇게 중요하지 않습니다 예를 들어, 우리는 데이터 과학 별, 현장의 슈퍼 스타 우리는 다소 협박적인 기사를 보게됩니다

그것은 "The World 's 포브스 닷컴 (Forbescom)의 '가장 강력한 데이터 과학자 7 명'이 기사를 볼 수 있습니다 URL 실제로 7 명 이상이 있습니다 때로는 한 쌍으로 그들을 데려 오기 때문입니다

학위를 확인하고 학업 훈련 내용을 확인해 봅시다 이 목록에있는 사람들은 컴퓨터 과학에서 5도, 수학에서 3도, 수학에서 2 공학, 그리고 생물학, 경제학, 법학, 언어학 및 통계학에서 각각 한 명씩 물론 데이터 과학 분야의 이러한 주요 인물은 다음과 같은 교육을받지 못했습니다 통계 학자 그들 중 한 명만 공식 훈련을 받았습니다

그래서, 그것은 우리를 다음 질문 이 두 분야, 통계 및 데이터 과학은 어디에서 다른가? 때문에 그들은 그들이 공통점이 많이 있어야하는 것처럼 보이지만, 훈련을 많이하지는 않습니다 구체적으로는, 우리는 훈련을 볼 수 있습니다 대부분의 데이터 과학자들은 정식으로 통계학 자로 훈련받지 못했습니다 또한 실제적으로 데이터 학습의 핵심 인 기계 학습 및 빅 데이터와 같은 것들은, 일반적으로 대부분의 통계와 공유되지 않습니다

그래서, 그들은 거기에 별도의 도메인을 가지고 있습니다 과 문맥의 중요한 문제가있다 데이터 과학자들은 다른 곳에서 일하는 경향이 있습니다 통계학 자보다 특히, 데이터 과학자들은 상업적으로 매우 자주 일합니다 권장 엔진을 얻으려는 설정 또는 제품을 개발하는 방법 돈을 벌어 줄거야

따라서 데이터 과학을 통계의 하위 집합으로 보는 대신, 우리는이 두 분야가 다른 틈새를 가지고 있기 때문에 더 많이 생각할 수 있습니다 그들은 모두 데이터를 분석하고, 그러나 그들은 다른 방식으로 다른 일을합니다 그래서, 그들이 공유하고 있다고 말하는 것은 공정 할 수 있습니다 그것들은 겹치고, 그들은 공통적으로 데이터를 분석하지만, 그렇지 않으면 생태 학적으로 뚜렷한 그래서, 요약하면 : 여기서 우리가 말할 수있는 것은 데이터 과학과 통계 모두 사용한다는 것입니다 데이터를 분석하고 분석합니다

그러나 각각의 사람들은 서로 다른 배경을 가진 경향이 있습니다 그들은 서로 다른 목표와 맥락으로 기능하는 경향이 있습니다 그리고 그런 식으로 명백한 중첩에도 불구하고 개념적으로 뚜렷한 필드가된다 우리가 데이터 과학을 이해하고, 내가 명시 적으로하고 싶은 또 하나의 대조가 있습니다 데이터 과학 및 비즈니스 인텔리전스 또는 BI 여기에있는 아이디어는 비즈니스 인텔리전스 실생활에서의 데이터입니다

그것은 매우 적용된 물건입니다 BI의 목적은 데이터를 가져 오는 것입니다 내부 운영, 시장 경쟁자 등에 대한 결정을 내리고 정당한 결정을 내립니다 바에 앉아서 마음을 움직이는 것과는 대조적입니다 자, 데이터 과학은 BI에 코딩이 없다는 것을 제외하고는 이와 관련되어 있습니다

저기있다 이미 존재하는 앱을 사용합니다 비즈니스 인텔리전스 통계는 매우 단순한 경향이 있습니다 그들은 수와 백분율 및 비율이되는 경향이 있습니다 그리고 그것은 간단합니다, 전구 간단하다; 그것의 한가지 일은 거기에 초 정교한 것은 아무것도 없습니다

대신 비즈니스 인텔리전스의 초점은 도메인 전문 지식과 실제로 유용한 직접 유틸리티에 있습니다 간단하고 효과적이며 통찰력을 제공합니다 자, 주요 협회 중 하나 비즈니스 인텔리전스는 대시 보드 또는 데이터 대시 보드라고합니다 그들은 본다 이런 식으로 그것은 당신에게 매우 감동적인 차트와 테이블 모음입니다

귀하의 비즈니스에서 진행되고있는 일에 대한 간략한 개요 그리고 많은 데이터 과학자들 말하자면 대시 보드 위에서 코를 내려다 보겠습니다 나는 이것들을 말할 것입니다 매우 잘 설계되었으며 사용자 상호 작용 및 접근성에 대해 많은 것을 배울 수 있습니다 대시 보드의 정보

그렇다면 실제로 데이터 과학은 어디로 들어 옵니까? 무엇입니까 데이터 과학과 비즈니스 인텔리전스 사이의 연결? 음, 데이터 과학은 유용 할 수 있습니다 BI를 설정하는 측면에서 데이터 소스 식별 및 생성 또는 설정 대시 보드 또는 비즈니스 인텔리전스 시스템과 같은 프레임 워크 또한, 데이터 과학은 그것을 확장하는 데 사용될 수 있습니다 데이터 과학을 사용하여 쉬운 질문을 피할 수 있습니다

실제로 가장 유용한 질문을 얻으려면 쉬운 데이터를 사용하십시오 그들은 정말 때로는 다루기가 힘든 데이터가 필요합니다 그리고 또한, 거기 다른 방향으로가는 흥미로운 상호 작용입니다 데이터 과학 실무자 좋은 비즈니스 인텔리전스 애플리케이션에서 디자인에 대해 많은 것을 배울 수 있습니다 그래서, 나는 강하게 데이터 과학자 중 누구라도 신중하게보고 자신이 배울 수있는 것을 볼 수 있도록 격려하십시오

요약하면 비즈니스 인텔리전스 또는 BI는 매우 목표 지향적입니다 데이터 과학은 아마도 그것을 준비한다 데이터 및 비즈니스 인텔리 전스에 대한 양식을 설정뿐만 아니라 데이터 과학은 비즈니스 인텔리전스에서 유용성과 접근성에 대해 많이 알고 있습니다 그리고 항상 그렇습니다 가까이서 볼만한 가치가 있습니다

데이터 과학은 그것에 대해 정말 멋진 것들을 많이 가지고 있지만 윤리적 인 문제를 고려하는 것이 중요하며이를 구체적으로 '해를 끼치 지 마십시오'라고합니다 데이터 과학 프로젝트에 그리고 우리는 Hippocrates 덕분에 그 사람을 말할 수 있습니다 누가 우리에게 해를 끼치 지 않는 히포크라테스의 선서를 우리에게주었습니다 구체적으로 데이터 과학에서 제기되는 중요한 윤리적 문제는 매우 간단합니다 번호 하나는 은둔

이 데이터는 사람들에 대해 많이 알려주고 기밀성에 대해 염려해야합니다 사람들에 대한 개인 정보, 이름, 사회 보장 번호, 그들의 주소, 그들의 신용 점수, 그들의 건강, 사적인 것, 기밀의 것, 귀하가 특별히 허락하지 않는 한 그 정보를 공유해서는 안됩니다 지금, 이것이 데이터 과학에있어 특별한 도전이되는 이유 중 하나입니다 나중에 보아라 데이터 과학에서 사용되는 많은 소스는 공유를 목적으로하지 않았다

웹 사이트 또는 PDF에서 데이터를 다쳤 으면 확인해야합니다 하기 위해서 그러나 원래 공유 의도없이 생성되었으므로 프라이버시가 보장됩니다 분석가가 실제로 제대로하고 있는지 확인하기 위해 정말로 쓰이는 것입니다 다음 것, 익명입니다

우리가 발견 한 흥미로운 것 중 하나는 식별하기가 어렵지 않다는 것입니다 데이터에있는 사람들 GPS 데이터가 약간 있고 사람이 어디에 있는지 알면 4 가지 시점에서, 당신은 그들이 누구인지를 정확히 알 수있는 확률이 약 95 %입니다 당신은 HIPAA와 같은 것을 보았습니다 그것은 건강 보험 이식성과 책임 성입니다

행위 HIPAA 이전에는 의료 기록으로 사람들을 식별하는 것이 정말 쉬웠습니다 그 이후로 사람들을 고유하게 식별하기가 훨씬 더 어려워졌습니다 그게 중요한거야 정말로 사람들의 행복을 위해서

또한 독점 데이터도 마찬가지입니다 당신이 클라이언트, 회사, 그리고 그들은 당신에게 자신의 데이터를 제공합니다 그 데이터에는 식별자가있을 수 있습니다 당신은 사람들이 누구인지 알 수 있습니다, 그들은 더 이상 익명이 아닙니다 따라서 익명 성 또는 데이터를 익명으로 만들기위한 주요 노력이 없을 수도 있습니다

하지만 정말로, 주요한 것은 비록 그들이 누구인지 알면서도, 당신은 여전히 ​​프라이버시와 비밀 유지를 유지합니다 데이터의 다음으로 사람들이 정보를 잠그려고하는 저작권 문제가 있습니다 자, 뭔가가 웹상에 있다고해서 그것이 당신이 그것을 사용할 수 있다는 것을 의미하지는 않습니다 웹 사이트의 데이터 스크랩은 프로젝트의 데이터를 가져 오는 가장 보편적이며 유용한 방법입니다 웹 페이지, PDF, 이미지, 오디오, 정말 거대한 데이터를 얻을 수 있습니다

사물의 수 그러나 웹에 있기 때문에 다시 가정 할 수 있습니다 그것을 사용하는 것은 사실이 아닙니다 항상 저작권을 확인하고 받아 들일 수 있는지 확인해야합니다 특정 데이터에 액세스 할 수 있습니다

다음으로, 우리의 매우 불길한 그림은 데이터 보안입니다 여기서 아이디어는 데이터를 수집하고 정리하기 위해 모든 노력을 다할 때 분석을 위해 준비하면 많은 것을 만들면서 매우 가치있는 것을 만들어 냈습니다 사람들은 데이터를 훔치려 고 해킹하려는 해커에 대해 염려해야합니다 특히 데이터가 익명이 아니며 식별자가 포함되어있는 경우 그리고 거기에 분석가가 자신의 능력을 최대한 발휘할 수 있도록하는 추가 부담 데이터는 안전하며 깨지거나 도난 당할 수 없습니다

그리고 그것은 매우 단순한 것을 포함 할 수 있습니다 자신의 프로젝트에 있지만 더 이상은 아니지만 플래시에서 데이터를 가져온 사람과 같은 것 드라이브 그렇게 할 수없는 방법을 찾아야합니다 거기에 많은 가능성이 있지만 까다 롭지 만 철저히 고려해야 할 사항입니다 자, 윤리 측면에서 두 가지가 나오지만 대개는 다루지 않습니다

이 대화에서 1 위는 잠재적 편견입니다 여기에있는 아이디어는 알고리즘 또는 데이터 과학에서 사용되는 수식은 중립적이거나 규칙과 같이 편견이 없습니다 그리고 그들이 얻은 데이터 그래서, 여기에있는 생각은 여러분이 규칙을 다룰 때 예를 들어 성별, 나이, 인종 또는 경제적 지위와 관련된 것, 의도하지 않게 이러한 요소들을 만들 수 있습니다

예를 들어, 9 번 타이틀, 당신은하지 않아도됩니다 당신은 시스템에 설치하지 않고 그것을 알고 있고, 알고리즘은 객관성의 광채를 가지고 있으며 사람들은 일부 편견을 모방하고 있다는 것을 깨닫지 않고도 확신을 가질 수 있습니다 실생활에서 일어날 수 있습니다 또 다른 문제는 과신이다 그리고 여기 아이디어는 분석은 제한된 단순화입니다

그들은 있어야합니다 과 이 때문에, 당신은 여전히 ​​이것을 해석하고 적용하는데 도움이되는 반복문 속에 인간이 필요합니다 문제는 사람들이 소수점 이하 10 자리까지 숫자를 얻기 위해 알고리즘을 실행하면, 그리고 그들은 "이것이 사실 일 것임에 틀림 없다"고 말하면서 그것을 돌이킬 수없는 돌이킬 수없는 것으로 취급한다 진실, 사실, 데이터가 편향된 경우; 알고리즘이 불완전한 경우, 샘플링이 대표성이 없다면 엄청난 문제가 발생할 수 있습니다 자신의 분석에 너무 많은 자신감을 가지고 잘못된 경로

그래서, 다시 한번 겸손이 있습니다 데이터 과학 작업을 할 때 주문하십시오 요약하면 데이터 과학은 엄청난 잠재력을 가지고 있지만 또한 프로젝트에 상당한 위험이 있습니다 문제의 일부는 분석입니다 중립적 일 수는 없으므로 알고리즘과 알고리즘이 어떻게 연관되어 있는지 살펴 봐야합니다

선호도, 편견, 편견 등이있다 그리고 그게 무슨 뜻인지 데이터 과학의 품질과 성공을 위해서는 무엇보다 좋은 판단이 항상 중요합니다 계획 데이터 과학은 그 방법이나 절차와 밀접하게 관련된 분야입니다 이 동영상 섹션에서는 다음과 같은 방법에 대한 간략한 개요를 제공합니다

데이터 과학에 사용됩니다 이제는 빠른 경고처럼이 섹션에서 일이 친절해질 수 있습니다 어떤 사람들은 괴물이 될 수 있습니다 하지만이 코스는 기술적이지 않은 개관 물건에 대한 기술적 인 손은 다른 코스에 있습니다

그리고 그건 기술이 단순히 데이터 과학을 수행하는 수단임을 기억하는 것이 정말로 중요합니다 통찰력 또는 데이터에서 의미를 찾을 수있는 능력 등이 그 목표입니다 Tech는 귀하가 그곳으로 가는데 도움이됩니다 따라서 우리는 주로 통찰력과 도구 및 기술에 중점을두고 자합니다 그 목표

이제 몇 가지 일반적인 카테고리를 살펴 보겠습니다 각각에 대한 개요가 나와 있습니다 첫 번째는 소싱 또는 데이터 소싱입니다 그건 당신이 필요로하는 원료 인 데이터 과학에 들어가는 데이터를 얻는 방법 둘째는 코딩

다시 말하지만, 컴퓨터 프로그래밍을 사용하여이를 얻고 조작 할 수 있습니다 데이터를 분석합니다 그 후, 수학의 작은 비트와 그 뒤에 수학입니다 데이터 과학 방법은 실제로 절차의 기초를 형성합니다 그리고 통계, 특히 데이터를 요약하고 분석하는 데 자주 사용되는 통계 방법 데이터 과학에 적용됩니다 그리고 기계 학습이 있습니다, ML, 이것은 컬렉션입니다

흥미있는 범주 또는 점수를 예측하기 위해 데이터에서 클러스터를 찾는 방법 결과 심지어이 다섯 가지 요소를 넘어서조차도, 프레젠테이션은 너무 기술적이지 않습니다 그들은 기본적으로 여전히 친절합니다 정말, 그것이 그 길입니다 그래서 개요입니다

개관의 요약하면 : 우리는 데이터 과학이 기술을 포함하지만 데이터 과학은 기술보다 큽니다 그것은 그 절차 이상의 것입니다 그리고 무엇보다도, 그 기술 데이터 과학에서 중요한 것은 여전히 ​​단순히 데이터를 통찰하는 수단 일뿐입니다 첫 번째 단계 데이터 과학 방법을 논의 할 때 소싱 또는 데이터 가져 오기 방법을 살펴 보는 것이 데이터 과학에 사용됩니다

이것을 원료를 얻는 것으로 생각할 수 있습니다 당신의 분석에 들어가십시오 자, 당신은 이것에 관해서 몇 가지 다른 선택을해야합니다 데이터 과학 기존 데이터를 사용할 수 있으며 데이터 API라는 것을 사용할 수 있습니다

웹 데이터를 스크랩하거나 데이터를 만들 수 있습니다 우리는 그 각각에 대해 아주 간단히 이야기 할 것입니다 기술적이지 않은 방식으로 지금 당장은 기존 데이터에 대해 이야기하겠습니다 이것은 이미 보유하고있는 데이터이며 사내 데이터 일 수 있습니다 그래서 당신이 일하면 회사, 귀하의 회사 기록 일 수 있습니다

또는 공개 된 데이터가있을 수 있습니다 예를 들어, 많은 정부와 많은 과학 단체들이 그들의 데이터를 대중에게 공개한다 과 그러면 제 3 자 데이터도 있습니다 이것은 일반적으로 공급 업체에서 구입하는 데이터이며, 하지만 그것은 존재하고 그것은 매우 쉽게 연결하고 갈 수 있습니다 API를 사용할 수도 있습니다

지금, 이것은 Application Programming Interface의 약자로, 컴퓨터 응용 프로그램은 서로 직접 통신 할 수 있습니다 그것은 당신의 전화와 같습니다 컴퓨터 프로그램 웹 데이터를 가져 오는 가장 일반적인 방법이며, 아름다운 것입니다 당신이 그 데이터를 어떤 프로그램이나 응용 프로그램으로 직접 가져올 수 있는지에 대한 것입니다

당신은 데이터를 분석하는 데 사용하고 있습니다 다음은 데이터 스크래핑입니다 그리고 이것은 당신이 원하는 곳입니다 웹에있는 데이터를 사용하지만 기존 API가 없습니다 그게 무슨 뜻인지, 일반적으로 HTML 웹 테이블과 페이지, 아마도 PDF에있는 데이터입니다

그리고 당신은 이것을 할 수 있습니다 특수 응용 프로그램을 사용하여 데이터를 스크래핑하거나 프로그래밍에서 수행 할 수 있습니다 R 또는 Python과 같은 언어를 사용하고 데이터 스크래핑을 수행하는 코드를 작성하십시오 또는 다른 옵션 데이터를 만드는 것입니다 그리고 이것은 당신이 당신이 필요로하는 것을 정확하게 얻을 수있게합니다; 당신은 매우 구체적 일 수 있습니다

당신은 필요한 것을 얻을 수 있습니다 인터뷰와 같은 일을하거나 설문 조사를 할 수 있습니다 당신은 실험을 할 수 있습니다 많은 접근 방식이 있으며, 대부분은 전문적인 접근 방식을 필요로합니다 품질 데이터 수집 방법에 관한 교육 그리고 그것은 실제로 기억하는 것이 중요합니다

새 데이터를 가져 오거나 만들 때 어떤 방법을 사용하든 관계없이 컴퓨터 과학에서 들었을지도 모르는 작은 격언 그것은 이름으로 간다 GIGO : 실제로는 "쓰레기통, 쓰레기통"을 의미하며, 당신이 당신의 시스템에 공급하는 나쁜 데이터, 당신은 가치있는 것을 얻지 못할 것입니다 그것에서 어떤 진짜 통찰력 따라서 측정 항목에주의를 기울이는 것이 중요합니다

또는 측정 방법 및 의미 – 정확하게 그들이 말하는 것입니다 몇 가지가있다 네가 할 수있는 방법 예를 들어 비즈니스 메트릭에 대해 이야기하고 대화를 나눌 수 있습니다 핵심 성과 지표 (KPI)를 의미하는 KPI에 대해서도 비즈니스 환경에서 사용됩니다

또는 스마트 목표, 이는 실용적이고시기 적절한 목표를 설명하는 방법입니다 너는 할 수있다 측정의 의미에서 분류 정확도에 대해서도 이야기합니다 그리고 나는 그것들 각각에 대해 토론 할 것이다 나중에 영화에서 좀 더 자세히 설명합니다

그러나 지금 당장은 총계로 다음과 같이 말할 수 있습니다 데이터 소싱은 분석을위한 원자재를 얻어야하기 때문에 중요합니다 좋은 점은 여러 가지 가능한 방법이 있다는 것입니다 데이터를 가져 오는 데 사용할 수있는 여러 가지 방법이 있습니다 데이터 과학

그러나 당신이 무엇을 하든지간에 품질과 품질을 점검하는 것이 중요합니다 데이터의 의미이므로 프로젝트에서 가능한 한 가장 많은 통찰력을 얻을 수 있습니다 그만큼 우리가 데이터 과학 방법에 대해 이야기 할 필요가있는 다음 단계는 코딩이며, 나는 데이터 과학에서 코딩에 대한 매우 간단한 비 기술 개요입니다 여기 아이디어는 너는 거기에 들어가고 너는 정글의 왕 / 너의 주인에게 갈거야 도메인으로 이동하고 점프해야 할 때 데이터를 점프하게하십시오

자, 우리가 언제 이야기했는지 기억한다면 처음에는 Data Science Venn Diagram에 대해 코딩이 왼쪽 상단에 있습니다 그리고 우리는 종종 사람들이 일종의 코드 행을 입력하는 것을 생각하지만 (이는 매우 빈번합니다), 코딩에 대해 이야기 할 때 (또는 일반적으로 컴퓨터 만) 기억하는 것이 더 중요합니다 여기서 우리가 실제로 말하는 것은 데이터를 조작 할 수있는 기술입니다 원하는 통찰력을 얻는 데 필요한 절차를 수행해야하는 방식으로 귀하의 데이터에서 이제 우리가 논의 할 세 가지 매우 일반적인 범주가 있습니다 여기 datalab에 첫 번째는 앱입니다

이들은 전문화 된 응용 프로그램 또는 프로그램입니다 데이터 작업 두 번째는 데이터입니다 또는 구체적으로 데이터 형식 특별하다

웹 데이터 용 형식에 대해서는 잠깐 언급 할 것입니다 그런 다음 코드를 작성하십시오 프로그래밍이있다 컴퓨터에서 수행하는 작업과 상호 작용하는 방식을 완벽하게 제어 할 수있는 언어 데이터로 각각을 잠깐 살펴 보겠습니다 앱 측면에서는 스프레드 시트 (예 : Excel 또는 Google 스프레드 시트) 아마 이것들은 아마도 세계의 대다수

데이터 시각화를위한 Tableau, 또는 SPSS는 사회 과학 및 비즈니스에서 매우 일반적인 통계 패키지이며, 그리고 내가 좋아하는 것 중 하나 인 JASP는 SPSS의 무료 오픈 소스 아날로그이며 실제로 연구를 사용하고 복제하는 것이 훨씬 쉽다고 생각합니다 그리고, 다른 톤이 있습니다 선택 이제 웹 데이터 측면에서 볼 때 HTML, XML, JSON 및 웹에서 데이터를 캡슐화하는 데 사용되는 기타 형식 그것들은 여러분이 상호 작용하기 위해 프로그래밍해야 할 것들입니다 당신이 당신의 데이터를 얻을 때

그리고 실제 코딩 언어가 있습니다 R은 아마도 Python과 함께 가장 일반적입니다 범용 언어이지만 잘 적응 해왔다 데이터 사용 SQL, 데이터베이스 구조화 된 쿼리 언어 및 매우 기본적인 언어가 있습니다

C, C ++ 및 Java와 같이 데이터 과학의 백엔드에서 더 많이 사용됩니다 그리고 가장 일반적인 명령 행 인터페이스 인 Bash와 정규식이 있습니다 그리고 우리 여기 datalab의 다른 코스에서이 모든 것을 말할 것입니다 그러나 이것을 기억하십시오 : tools 도구 일뿐입니다 그것들은 데이터 과학 과정의 한 부분 일뿐입니다

그들은 수단이다 결국 목표는 통찰력입니다 당신은 당신이 가고자하는 곳을 알아야합니다 그런 다음 특정 목표에 도달하는 데 도움이되는 도구를 선택하기 만하면됩니다 그게 바로 가장 중요한 것

요약하면 다음과 같습니다 1 번, 도구를 현명하게 사용하십시오 질문은 도구 자체가 아니라 프로세스를 추진해야한다는 것을 기억하십시오 또한, 나는 약간 공구가 보통 충분하다는 것을 다만 언급 할 것이다 Excel로 엄청난 작업을 수행 할 수 있습니다

R 그리고 가장 중요한 것은 목표에 집중하고 도구를 선택하는 것입니다 심지어 목표와 일치하는 데이터까지도 포함 할 수 있으므로 귀하는 가장 유용한 통계를 얻을 수 있습니다 데이터 데이터 과학 방법에 대한 우리의 논의에서 다음 단계는 수학이며 나는 가고있다

데이터 과학에 관련된 수학에 대한 간단한 개요를 제공합니다 자, 중요한 것은 기억해야 할 것은 수학이 실제로 우리가 할 일의 기초를 형성한다는 것입니다 Data Science Venn Diagram으로 돌아 가면 오른쪽 구석에 통계가 있습니다 하지만 실제로 그것은 수학과 통계, 또는 일반적으로 양적 능력이지만, 우리는 수학 부분 그리고 아마 가장 중요한 질문은 얼마나 많은 수학이 필요한가입니다

네가해야 할 일을하는거야? 또는 다른 방법으로 말하자면 왜 수학이 필요합니까? 당신은 그것을 할 컴퓨터가 있습니까? 네가 원하지 않는 세 가지 이유를 생각해 볼 수있어 컴퓨터에 의지 할 수는 있지만 수학적으로 이해하면 도움이됩니다 여기에 그들은 다음과 같습니다 : 1 번, 당신은 어떤 절차를 사용해야하는지 그리고 왜 사용해야 하는지를 알아야합니다 그래서 너는 귀하의 질문, 당신은 귀하의 데이터를 가지고 충분히 이해해야합니다 정보에 입각 한 선택을하십시오

그다지 어려운 일이 아닙니다 둘째, 무엇을 해야할지 알아야합니다 일이 제대로 작동하지 않을 때 때때로 당신은 불가능한 결과를 얻습니다 나는 통계를 알고있다

네거티브 조정 된 R2를 얻을 수 있습니다 그 일은 일어나지 않아 그리고 그것은 좋은 것입니다 계산에 들어가는 수학을 알고 어떻게하면 분명히 무언가를 이해할 수 있습니다 불가능할 수도 있습니다

또는 요인 분석 또는 주요 구성 요소를 수행하려고합니다 변환하지 않을 순환 게재를 얻습니다 그것이 무엇인지 이해하는 데 도움이됩니다 알고리즘, 그리고 왜 그 상황에서 작동하지 않습니다 그리고 셋째, 흥미롭게도, 일부 절차, 일부 수학은에 의해보다 쉽고 빠르게 할 수 있습니다 컴퓨터가 터졌다

그리고 나중의 비디오에서 몇 가지 예를 보여 드리겠습니다 그럴 수 있습니다 근본적으로 여기에 좋은 유추가 있습니다 수학은 데이터 과학은 예를 들어 화학은 요리, 운동학은 춤, 문법은 글쓰기에 있습니다 여기 아이디어는 당신이 알지 못하면 훌륭한 요리사가 될 수 있다는 것입니다

어떤 화학 물질이든간에 화학적 성질을 알고 있다면 도움이 될 것입니다 당신은 훌륭한 사람이 될 수 있습니다 무의미 ​​운동을하지 않고 무용수에게 도움을 줄 것입니다 그리고 당신은 아마 좋은 사람이 될 수 있습니다 작가는 문법에 대한 지식이 없어도 큰 도움이 될 것입니다

차 데이터 과학에 대해서도 마찬가지입니다 네가 가진다면 더 잘 할거야 몇 가지 기본 정보 그래서, 다음 질문은 : 어떤 종류의 수학이 당신은 데이터 과학을 필요로합니까? 글쎄, 거기에 몇 가지 답변이 있습니다

숫자 1은 대수학입니다 당신은 몇 가지 기본 대수학이 필요합니다 즉, 기본적으로 간단한 것입니다 너는 할 수있다 선형 대수학이나 행렬 대수학을 수행하십시오

왜냐하면 그것이 많은 계산의 기초이기 때문입니다 또한 여러 방정식을 풀려고 할 때 선형 방정식 시스템을 사용할 수도 있습니다 한꺼번에 이론 상으로는 까다로운 일이지만, 이것이 바로 그 중 하나입니다 때로는 손으로하는 것이 실제로 쉽습니다

이제 더 많은 수학이 있습니다 당신은 미적분을 얻을 수 있습니다 함수의 순서와 관련이있는 커다란 O를 얻을 수 있습니다 얼마나 빨리 작동하는지 확률 이론은 중요 할 수 있으며, Bayes의 정리 사후 확률이라고 불리는 것을 얻는 방법은 또한 정말 유용한 도구가 될 수 있습니다

데이터 과학의 근본적인 질문에 답하기위한 것입니다 그래서 합계 : 약간의 수학 분석을 계획 할 때 정보에 입각 한 선택을하는 데 도움이 될 수 있습니다 매우 유의하게, 일이 올바르게 진행되지 않을 때 문제를 찾고 해결할 수 있도록 도와줍니다 그것은 능력이다 차이를 만드는 두포를 살펴 보는 것

그리고 진실하게, 몇몇 수학적 절차들, 선형 방정식과 같은 시스템은 수작업으로 수행 할 수도 있고 때로는 더 빠르게 수행 할 수도 있습니다 당신은 컴퓨터로 할 수 있습니다 따라서 시간과 노력을 절약하고 움직일 수 있습니다 더 빨리 귀하의 통찰력 목표를 달성하십시오 이제 데이터 과학은 데이터 과학이 아니 겠지요

그리고 약간의 통계없이 그것의 방법 그래서 간단한 통계 자료를 알려 드리겠습니다 데이터 과학에서 일하는 방식에 대한 개요 이제 통계를 실제로 생각할 수 있습니다 혼란 속에서 질서를 찾으려는 시도는 압도적 인 혼란 속에서 패턴을 발견한다 시도하는 것과 비슷합니다

숲과 나무를 볼 수 있습니다 이제 우리의 작은 벤 다이어그램으로 돌아가 봅시다 우리 최근에는 상단 모서리에 수학과 통계가 있습니다 우리는 다시 이야기로 돌아갈 것입니다 특히 통계에 대해서

당신이 여기서하려고하는 것은 무엇입니까; 한 가지는 데이터를 탐색하는 것입니다 우리는 시각적 인 사람들이며 일반적으로 가장 쉽기 때문에 탐험적인 그래픽을 가질 수 있습니다 사물을 볼 수 있습니다 데이터의 수치 적 탐색 인 탐색 통계를 가질 수 있습니다 그리고 너 대부분의 사람들이 말했던 것들을 설명하는 통계를 가질 수 있습니다

그들이 대학에서 통계 수업을 듣던시기에 대해 (그들이 그렇게한다면) 다음으로 추론 바람과 공기에 대해 추측 할 수 있기 때문에 여기에 연기가 나옵니다 연기에서 패턴을보고 움직임 여기 아이디어는 당신이 표본의 정보를 수집하고 인구에 관한 정보를 추론합니다

너는 가려고하고있다 한 근원 한 가지 일반적인 버전은 가설 테스트입니다 또 다른 공통점 버전은 추정치이며 때로는 신뢰 구간이라고도합니다 그것을 할 수있는 다른 방법이 있습니다

그러나이 모든 것들이 데이터를 넘어 더 큰 결론을 내릴 수있게 해줍니다 지금, 통계에 대한 흥미로운 점 중 하나는 일부 세부 사항을 정리하고 일을 정리합니다 예를 들어, 뭔가를 할 수 있습니다 피쳐 선택과 같은 기능이며 피킹 변수 또는 조합을 포함해야합니다 문제를 일으킬 수있는 문제가 자주 발생하며 몇 가지 문제를 해결할 것입니다

나중에 동영상에있는 사람들의 유효성 검사의 문제도 있습니다 통계를 만들 때 모델이 실제로 정확한지 확인해야합니다 바라기를, 당신은 당신이 할 수있는 충분한 자료가있다 홀 아웃 샘플을 가지고 그렇게하거나, 당신은 연구를 복제 할 수 있습니다 그런 다음 당신이 사용하는 견적 도구의 선택; 실제로 계수 나 조합을 얻는 방법 귀하의 모델에서 그리고 나서 모델이 데이터에 얼마나 잘 맞는지 평가하는 방법이 있습니다

모든 이것들은 제가 통계 분석에 관해 이야기 할 때 잠깐 언급 할 문제들입니다 더 큰 길이 자, 여기서 특히 한가지 언급하고 싶습니다 이 "트롤을 조심하십시오" 밖에있는 사람들이 있습니다

일을 정확하게 말하고, 분석을하는 것은 의미가 없으며, 데이터가 쓰레기이며 모든 시간을 낭비했습니다 있잖아? 그들은 트롤입니다 그래서, 그 아이디어는 여기는 듣지 마라 당신은 자신의 정보에 입각 한 결정을 충분히 할 수 있습니다 계속해서 유용하고 유용한 분석을 할 수 있습니다

아마도 가장 중요한 것 중 하나 이것에 대해 생각해 볼만한 것은 매우 유명한 통계 학자의 훌륭한 견적이며 "모든 모델 또는 모든 통계 모델이 잘못되었지만 일부 모델은 유용합니다" 그래서 질문은 당신이 기술적으로 옳은가, 아니면 일종의 지적 수준을 가지고 있느냐가 아닙니다 순결하지만, 당신이 유용한 것이 있는지 여부 그건 그렇고, 조지에게서 나온거야 상자

그리고 저는 기본적으로 이것을 다음과 같이 생각하고 있습니다 : 국기를 물결 치듯 흔들어서 " 너 자신이 "깃발을 쓰고, 자존심을 가져라 그것을 비판하는 사람들입니다 계속해, 너는 무언가를하고, 계속 나아가고,해라 그래서 요약하면 통계를 통해 데이터를 탐색하고 설명 할 수 있습니다 그것은 당신이 추론 할 수있게 해준다

인구에 관한 것들 사용할 수있는 선택 항목이 많고 많은 절차가 있습니다 그러나 당신이하는 일과 상관없이, 그 목표는 유용한 통찰력입니다 그 목표와 당신의 눈을 계속 지켜라 당신의 연구에 도움이되도록 당신의 데이터에 의미 있고 유용한 것을 발견 할 것입니다

및 프로젝트 간단한 개요를 통해 데이터 과학 방법 개요를 마무리하겠습니다 기계 학습 자, 저는 여러분이 "기계 학습"이라는 말을 할 때 인정해야합니다 사람들은 뭔가 생각하기 시작합니다

"로봇 로봇 대원이 세계 "그것은 그게 아니라, 다시 한 번 우리의 벤 다이어그램으로 돌아가 보자 그리고 코딩과 통계 사이의 맨 위에있는 교차점에서 기계 학습 또는 일반적으로 ML이라고 부릅니다 기계 학습의 목표는 데이터로 이동하여 작업하는 것입니다 예를 들어, 많은 양의 데이터를 가져갈 수 있습니다 (우리는 엄청난 양의 책을 가지고 있습니다

여기), 차원을 줄일 수 있습니다 즉, 매우 크고 흩어져있는 데이터를 가져옵니다 해당 데이터의 가장 중요한 부분을 찾아 설정하십시오 그런 다음이 방법을 사용할 수 있습니다 데이터 내의 클러스터를 찾는다

like like 같이 간다 k-means와 같은 방법을 사용할 수 있습니다 또한 데이터 공간에 나타나는 비정상적인 사례를 찾을 수도 있습니다 또는, 우리가 카테고리로 다시 돌아 가면, 나는 같은 것에 대해 이야기했다 다음과 같은 것을 사용할 수 있습니다

로지스틱 회귀 또는 k- 가장 가까운 이웃, KNN Naive Bayes를 사용하여 분류 할 수 있습니다 또는 Decision Trees 또는 SVM (Support Vector Machines) 또는 인공 신경망 (artificial neural net)을 사용합니다 그 중 어떤 것도 데이터에서 패턴과 덩어리를 찾는데 도움이됩니다 서로 비슷한 비슷한 경우를 말하며 결론을 내리는 데 필요한 응집력을 얻으십시오

이 그룹들에 대해서 또한 기계 학습의 주요 요소는 예측입니다 너는 길을 가르키 려합니다 가장 일반적인 방법은 여기에 있습니다 가장 기본적인 선형 회귀, 다중 회귀입니다

푸 아송 회귀도 있습니다 카운트 또는 주파수 데이터를 모델링하는 데 사용됩니다 Ensemble 모델의 문제가 있습니다 여기서 여러 모델을 만들고 각 모델에서 예측을 가져옵니다 그것들을 합쳐서보다 믿을만한 예측을 얻습니다

이제 각각에 대해 이야기하겠습니다 이것들은 나중의 과정에서 조금 더 자세하게 설명하지만, 지금 당장은 당신이 이러한 것들이 존재한다는 것을 알고, 그것이 우리가 기계 학습을 말할 때 의미하는 바입니다 따라서, 기계 학습을 사용하여 사례를 분류하고 점수를 예측할 수 있습니다 결과 그리고 많은 선택, 많은 선택과 절차가 있습니다

그러나 다시, 내가 통계로 말했듯이, 그리고 나중에도 여러 번 다시 말할거야 상관없이, 목표는 "인공 신경 네트워크 또는 SVM을 할 것"이 아니라 목표는 귀하의 데이터에 대한 유용한 통찰력 기계 학습은 도구이며이를 사용하여 필요한 통찰력을 얻는 데 도움이됩니다 지난 몇 편의 동영상에서 기술적 인 것의 데이터 과학에서의 역할 반면에 의사 소통은 필수적입니다

연습에 대해 말하면서 해석 할 수있는 부분이 있습니다 그만큼 여기서 아이디어는 데이터 경로를 통해 사람들을 이끌 수 있기를 바랍니다 너는 원한다 데이터 기반 스토리를 말하면 데이터로 수행하는 작업의 전체 목표입니다 과학

이제 이것에 대해 생각해 볼 수있는 또 다른 방법은 분석을 할 때 무엇을 당신이하려고하는 것은 가치를 해결하는 것입니다 방정식을 만들고있어 데이터를 가져 가면됩니다 가치를 위해 노력하고 있습니다 문제는 이것이다 : 많은 사람들이 분석에 매달린다

그러나 그들은 분석이 가치와 같은 것이 아니라는 것을 기억해야합니다 대신, 나는 좋아한다 이것을 분석하는 방법 : 분석 시간 이야기는 가치와 동일합니다 자,주의하십시오 그건 곱셈 적 (additive)이 아니라 곱셈 (multiplicative) 이니까, 그 중 하나의 결과는 여러분이 돌아갈 때입니다

~, 분석 시간 이야기는 가치와 같습니다 글쎄, 만약 당신이 이야기가 없다면 왜냐하면, 당신이 기억하기에, 0 번이 0이기 때문입니다 그래서, 그 대신에 이것으로 돌아가서 우리가 정말로하고 싶은 말은 이야기를 극대화하기 위해서입니다 우리는 분석 결과로 얻는 가치를 극대화 할 수 있습니다 다시 최대 값은 전체적인 목표는 여기에 있습니다

분석, 도구, 기술은 그 목표 그럼 목표에 대해 이야기 해 봅시다 예를 들어 분석은 목표 지향적입니다 당신 구체적인 것을 성취하려고 시도하고 있습니다 그래서 이야기 나 내러티브는, 또는 프로젝트에 대한 설명이 그 목표와 일치해야합니다

일하고 있다면 특정 질문이있는 고객이 대답하기를 원한다면 그 질문에 명확하고 모호하지 않게 답변 할 수있는 전문적인 책임 당신이 예 또는 아니오를 말했는지를 알며 그들은 당신이 예 또는 아니오라고 말한 이유를 압니다 자, 문제의 일부 여기에 고객이 당신이 아니라 당신이하는 것을 보지 못한다는 사실이 있습니다 그리고 내가 보여 주듯이 여기에 단순히 얼굴을 가리는 것만으로는 사라지지 않습니다 걱정해야 해 약간의 심리적 추상화

당신은 자기 중심주의에 대해 걱정해야합니다 그리고 나는 말하고 있지 않다 헛되다는 것에 대해, 나는 다른 사람들이보고 알고 있다고 생각하는 생각에 대해 이야기하고있다 네가 아는 것을 이해하라 그건 사실이 아니야; 그렇지 않으면, 그들은 당신을 고용하지 않았을 것입니다

첫 번째 장소 그래서 당신은 클라이언트가 작동하는 측면에서 그것을 넣어야합니다 그들은 이해하고, 당신은 자신의 중심에서 벗어나야 만 그렇게 또한 잘못된 합의에 대한 생각이 있습니다 "모두들 잘 압니다

" 그리고 다시, 그것은 사실이 아닙니다 그렇지 않으면 그들은 당신을 고용하지 않았을 것입니다 너는 이해할 필요가있어 그들은 다른 범위의 경험을 가진 다른 배경에서 올 것입니다 해석

당신은 그것을 보상해야 할 것입니다 재미있는 작은 것 앵커링에 대한 아이디어입니다 누군가에게 초기 인상을 줄 때, 그들은 그것을 사용합니다 앵커로서, 그리고 그들은 그것에서 멀리 조정 그래서 물건을 뒤집어 쓰려고한다면 그들의 머리 위로, 처음에 잘못된 인상을 주시 함을주의하십시오

당신은 절대적으로 필요합니다 하지만 가장 중요한 것은 클라이언트와 클라이언트 사이의 격차를 줄이기 위해서입니다 그리고 당신은 명확성을 가져야하고 각 단계에서 자신을 설명해야합니다 당신은 또한 생각할 수 있습니다 대답에 대해

프로젝트를 클라이언트에게 설명 할 때 아주 간단한 절차에서 시작하려면 : 대답하는 질문을 기술하십시오 주기 그 질문에 대한 당신의 대답, 그리고 필요하다면 필요에 따라 자격을 얻으십시오 그리고 나서 순서대로 가라 위에서 아래로, 그래서 당신이 말하고있는 것을 가능한 한 명확하게하려고 노력하고 있습니다 대답은, 그리고 따르기 정말 쉽습니다

이제 프로세스를 논의하는 측면에서, 어떻게이 모든 일을했는지 대부분의 경우 그들은 아마도 그들이 신경 쓰지 않는 경우 일 것입니다 대답이 무엇인지 알기를 원하고 당신이 그것을 얻기 위해 좋은 방법을 사용했다는 것을 알고 싶습니다 그래서, 절대적으로 필요한 경우에만 프로세스 또는 기술 세부 사항을 논의하는 용어 그게 마음에 두는 무엇

이 과정은 분석을 기억하는 것입니다 떨어져 무언가를 깨기 그건 그렇고, 이것은 기계식 타자기입니다 개별 구성 요소 분석이란 무엇인가 떨어져 나가는 것을 의미하며 데이터 분석은 단순화 운동

당신은 전반적인 복잡성을 압도합니다 데이터를 끓여서 이해하고 제공하는 패턴을 찾는 것입니다 고객의 요구 이제 친구 인 앨버트 아인슈타인 (Albert Einstein)의 멋진 견적을 보겠습니다 여기에 누가 말 했는가

"모든 것은 가능한 단순하게해야하지만 단순하지는 않아야한다" 그게 당신의 분석을 발표 할 때 진실입니다 또는 건축가와 디자이너를 만나러 가고 싶다면 Ludwig Mies van der Rohe는 "적은 것이 더 많습니다"라고 말했습니다 실제로 Robert Browning입니다

원래 그것을 말했다, 그러나 Mies van der Rohe는 그것을 대중화했다 또는, 다른 방법을 원한다면 내 분야에서 오는 원리를 두는 것, 나는 실제로 심리학 연구자이다 그들은 최소한으로 충분하다고 이야기합니다 적절하게 질문에 대답하기에 충분합니다 당신이 상상할 수있는 최소한의 실행 가능한 제품에 대해 알고 있다면 그것은 같은 생각입니다 분석 범위 내에서 최소한의 실행 가능한 분석

여기에 몇 가지 팁이 있습니다 프레 젠 테이션, 더 많은 차트, 적은 텍스트, 좋은 그런 다음 차트를 단순화하십시오 모든 것을 제거하십시오 거기에있을 필요는 없습니다

일반적으로 데이터 테이블을 사용하지 않으려는 경우 읽을 수 없습니다 그리고 나서, 한 번 더 강조하기를 원하기 때문에, 텍스트는 적습니다 다시 차트, 테이블은 일반적으로 메시지를 전달할 수 있습니다 그래서, 내가 한 가지 예를 들어 보겠다

이리 나는 Berkeley 입학에서 매우 유명한 데이터 세트를 제공 할 것입니다 자, 이것들은 버클리의 계단이지만 멀리있는 곳으로 들어 가려고하는 아이디어를줍니다 떨어져 그리고 먼 여기에 데이터가 있습니다

이것은 1973 년에 대학원 입학 이었으므로 40 년이 넘었습니다 아이디어는 남녀가 모두 대학원에 지원한다는 것이다 버클리 대학에서 우리가 발견 한 사실은 신청 한 사람들은 인정을 받았고, 그들은 녹색으로 된 부분입니다 그리고 여성 중 35 %만이 여성들이 입양되었을 때 입원했다 그래서, 이것은 언뜻보기에 편향입니다

실제로 소송을 일으켰습니다 중요한 문제였습니다 그래서, 버클리는 그 다음에 무엇을하려고 했습니까? "이 편견에 책임있는 프로그램은 무엇인가?" 그리고 그들은 매우 호기심이 많습니다 결과 집합 응용 프로그램을 프로그램별로 분리하면 (여기서는 A ~ F), 여섯 가지 프로그램

당신이 실제로 발견 한 것은, 이것들 각각에있는 것입니다 왼쪽 여성 지원자의 남성 지원자가 오른쪽에 있습니다 프로그램 A를 보면, 여성들은 실제로 더 높은 비율로 받아 들여졌고 B도 마찬가지입니다 D에 대해서는 참이고 F에 대해서도 마찬가지입니다 그래서 이것은 매우 흥미로운 답변입니다 그것은 설명이 필요한 것입니다

이제 통계에서 이것은 심슨의 역설이라고합니다 그러나 여기에 역설이 있습니다 편견은 부서 수준 사실 4 개 부서에서 보았 듯이, 여성에게 편향되어있다 그리고 문제는 여성들이보다 선별적인 프로그램에 적용되고, 합격률이 낮은 프로그램

이제 어떤 사람들은 여기서 멈추고 따라서 말합니다 "아무 일도 일어나지 않고 불평 할 것이 없다" 하지만 너도 알다시피, 아직 끝이야 이야기는 조금 일찍 당신이 물어볼 수있는 다른 질문들이 있습니다

데이터 중심의 이야기입니다 이것은 당신이하고 싶은 일입니다 예를 들어 "왜 프로그램이 전체 수업 규모가 다른가요? 왜 받아 들일 수 있습니까? 요금은 프로그램마다 다릅니다 왜 남녀가 다른 프로그램에 적용됩니까? " 그리고 각 프로그램에 대한 입학 기준 같은 것을 보길 원할 수도 있습니다 판촉 전략, 그들이 학생들에게 어떻게 자신을 광고하는지

너는 할 수있다 학생들이 프로그램에서 가지고있는 이전 교육의 종류를보고, 당신이 정말로 원한다면 각 프로그램의 기금 수준을 살펴보아야합니다 그래서 정말로, 당신은 적어도 하나의 대답을 얻습니다 더 많은 질문, 아마도 더 많은 답변, 그리고 더 많은 질문, 당신은 충분히 언급해야합니다 고객에게 포괄적 인 개요 및 솔루션을 제공 할 수 있습니다 요약하자면, 이야기는 데이터 분석에 가치를 부여합니다

그리고 이야기를 할 때, 당신은 분명하고 명확한 방법으로 고객의 목표를 달성하고 있는지 확인하십시오 전체 원칙은 여기에 최소한으로 충분합니다 요점을 짚으십시오 뭐라고 당신이해야하지만, 그렇지 않으면 간결하고 당신의 메시지를 명확하게하십시오 다음 단계 데이터 과학 및 의사 소통에 관해 논의하는 것은 실용적인 통찰이나 정보에 대해 이야기하는 것입니다

어떤 것을 성취하기 위해 생산적으로 사용될 수 있습니다 자, 기괴한 일종의 여기서 게임 컨트롤러를 보게됩니다 그것은 꽤 좋은 것일 수 있습니다 기억하지만, 게임 컨트롤러는 뭔가를하기 위해 존재합니다 너를 돕기 위해 존재한다

게임을 가능한 한 효율적으로 수행해야합니다 그들은 기능을 가지고 있으며, 목적을 가지고 있습니다 같은 방식으로 데이터를 처리합니다 자, 그건 제가 좋아하는 역사적 사건 중 하나에 대한 의역입니다 수치

이것은 American Psychology의 아버지 인 William James입니다 실용주의는 철학 그리고 그는이 멋진 견적을 가지고 있다고 말했습니다 "내 생각은 처음이자 마지막이다 항상 내 일을 위해서

"그리고 그 아이디어는 분석에 적용됩니다 당신의 데이터는 당신을 위해서입니다 그래서, 당신은 특정 종류의 것을 얻기 위해 노력하고 있습니다 진행 방법에 대한 통찰력 당신이 피하고 싶은 것은 이것과 반대입니다

내 다른 좋아하는 문화 영웅 중 하나, 유명한 양키스 포수 요기 베라, 누가 "우리는 길을 잃었지만 즐거운 시간을 보내고있다"고 말했다 여기의 아이디어는 광란의 활동이 방향의 부족을 보완하지 못한다 당신이하고있는 일을 이해할 필요가 있습니다 특정 목표에 도달하십시오 그리고 당신의 분석은 그것을하기로되어 있습니다

그래서, 당신이 줄 때 당신의 분석, 당신은 그 길을 지적하려고 노력할 것입니다 기억하십시오, 왜 프로젝트가 실시 되었습니까? 목표는 대개 일종의 행동을 유도하고 고객을위한 일종의 목표에 도달하는 것입니다 그리고 그 분석은 정보에 입각 한 방식으로 그 행동을 인도 할 수 있어야합니다 한 가지 당신은 당신의 고객에게 다음 단계를 줄 수 있기를 원합니다 줘 다음 단계; 지금 그들이해야 할 일을 말해주십시오

당신은 각자를 정당화 할 수 있기를 원합니다 데이터 및 분석을 통한 권장 사항 최대한 구체적으로 말하자면, 그들이해야 할 일을 정확하게 말해주십시오 고객이 할 수 있는지 확인하십시오 능력 범위 내에서 그리고 각 단계는 이전 단계에서 작성되어야합니다

자, 그것은 말하기를, 정말로 근본적인 종류의 철학적 문제가 있습니다 여기, 그리고 그것은 상관과 인과 관계의 차이입니다 기본적으로, 그것은 이렇게 간다 : 데이터는 상관 관계를 제공합니다 당신은 이것이 이것과 관련되어 있다는 것을 압니다 하지만 너의 클라이언트는 단순히 관련 내용을 알고 싶지 않습니다

그들은 무엇이 원인인지 알고 싶어한다 어떤 것 왜냐하면 만약 그들이 뭔가를하려고한다면, 그건 개입 이니까요 특정 결과를 생성합니다 그래서, 정말로, 당신은 상관 관계로부터 어떻게 얻습니까? 데이터에서, 인과 관계에, 고객이 원하는 것은 무엇입니까? 글쎄요

몇 가지 방법이 있습니다 하나는 실험적 연구입니다 이들은 무작위로 통제된다 시련 이제 이론적으로는 인과 관계에 대한 가장 단순한 경로이지만, 실제로는 까다로울 수 있습니다

현실 세계에서 준 실험 (quasi-experiments)이 있으며, 이것들은 방법, 전체 모음 방법의 그들은 무작위 화되지 않은 데이터, 일반적으로 관측 데이터를 사용합니다 인과 관계 추론의 추정치를 얻는 방법 또는 이론과 경험이 있습니다

과 이것은 연구 기반 이론 및 도메인 별 경험입니다 그리고 이것은 실제로 당신이있는 곳입니다 고객 정보에 의지하십시오 그들은 당신이 정보를 해석하는 것을 도울 수 있고, 특히 도메인 전문성이 귀하보다 더 큰 경우 생각할 또 다른 사항 귀하의 데이터에 영향을 미치는 사회적 요소입니다 이제 데이터 과학 Venn Diagram을 기억합니다

우리는 많은 시간을 보았습니다 그것은이 세 가지 요소를 가지고 있습니다 일부 제안 추가 이 벤 다이어그램의 네 번째 원이고, 우리는 거기에 넣으면서 말할 것입니다 사회 이해는 또한 중요한 데이터 과학에 중요합니다 자, 사랑해

그 아이디어, 그리고 나는 그것이 어떻게 진행되는지를 이해하는 것이 중요하다고 생각합니다 아웃 몇 가지 종류의 사회적 이해가 있습니다 당신은 당신의 고객의 사명을 알고 싶습니다 당신은 당신의 권고 사항이 고객의 사명과 일치하는지 확인하고 싶습니다

또한 귀하의 권장 사항은 고객의 신원과 일치합니다 뿐만 아니라, "이것은 우리가하는 일 "이라고 말하지만"이것은 정말로 우리가 누구인가 "라는 것을 인식해야합니다 컨텍스트, 경쟁 환경의 종류 및 규제 환경 사회적인 맥락뿐만 아니라 조직 외부에있을 수 있습니다 조직 내에서 더욱 자주 발생합니다

추천 내용은 관계에 영향을 미칩니다 클라이언트 조직 내에서 그리고 당신은 그것들을 많이 알기 위해 노력할 것입니다 권장 사항을 필요한 방식으로 실현할 수 있도록 할 수 있습니다 그래서, 요약하면 : 데이터 과학은 목표에 중점을두고 있으며, 목표에 집중할 때는 고객은 분석과 정당성에 근거하여 다음 단계를 구체적으로 제시해야합니다 데이터에서

그렇게 할 때 사회적, 정치적, 경제적 맥락을 인식하십시오 그러면 분석에서 정말 유용한 것을 얻을 수있는 최상의 기회를 얻을 수 있습니다 데이터 과학에서 일하고 결과를 전달하려고 할 때 프레젠테이션 그래픽은 엄청난 도움이 될 수 있습니다 이 방법으로 생각하십시오 페인트하려고합니다

고객의 이익을위한 그림 이제 그래픽으로 작업 할 때 서로 다른 두 가지 목표가 될 수 있습니다 그것은 당신이 작업하고있는 그래픽의 종류에 달려 있습니다 탐색 적 그래픽의 일반적인 범주가 있습니다 이들은 당신이 사용하고있는 것들입니다

분석가로서 탐색 그래픽의 경우 속도와 응답 성이 필요합니다 매우 간단한 그래픽을 얻을 수 있습니다 이것은 R의 기본 히스토그램입니다 그리고 조금씩 얻을 수 있습니다

더 정교하고 이것은 ggplot2에서 행해진 다 그리고 당신은 다른 두 사람으로 나눌 수 있습니다 히스토그램을 만들거나 다른 방식으로 만들거나 투명하게 만들거나 분할 할 수 있습니다 떨어져 작은 배수로 그러나 각각의 경우에, 이것은 당신의 이익을 위해 분석가는 데이터를 이해합니다

이것들은 빠르고 효과적입니다 이제 그들은 그렇지 않습니다 매우 잘 레이블이 붙어 있으며 일반적으로 당신의 통찰력을위한 것입니다 그런 다음 당신은 다른 일을합니다 그 결과로 반면에, 당신의 이익을위한 프리젠 테이션 그래픽 고객은 명확성이 필요하며 서술 흐름이 필요합니다

이제 각각에 대해 이야기하겠습니다 그 특징들을 아주 간략하게 선명도 대 산만 함 저기있는 것들이있다 그래픽에서 잘못 될 수 있습니다 번호 하나는 색상입니다

색상은 실제로 문제가 될 수 있습니다 또한, 3 차원 또는 잘못된 차원은 거의 항상주의 산만합니다 어떤 사람들에게는 약간의 감동을주는 사람 상호 작용입니다 인터랙티브 그래픽은 정말 멋지고 훌륭한 것들이라고 생각합니다 당신은 사람들이 상호 작용에 정신이 흐려지고 놀 수있는 위험을 감수합니다

그것으로 가는 것, "오, 나는 그것을 여기에서 눌러" 그리고 그것은 메시지에서 산만 해집니다 실제로, 상호 작용을하지 않는 것이 중요 할 수 있습니다 그리고 똑같은 것이 사실입니다

애니메이션의 평평하고 정적 인 그래픽은 더 적은 수의 정보를 제공하기 때문에 종종 유익합니다 그들의 산만 함 어떻게하면 일을하지 않는지에 대한 간단한 예를 들어 드리겠습니다 자,이 내가 만든 차트입니다 나는 그것을 Excel에서 만들었고, 나는 실수의 일부를 토대로 그것을했다

내가 가르치면 그래픽으로 보았습니다 그리고 나는 모든 것을 보증합니다 여기 나는 실생활에서 보았을뿐입니다 확대 해 보겠습니다 약간, 그래서 우리는이 그래픽의 모든 나쁜 점을 볼 수 있습니다

그리고 무슨 일이 일어나는지 보자 여기에 우리는 8에서 시작하여 28 %로 작고 규모가 작습니다 심지어하지 않습니다 데이터의 범위를 커버하십시오

우리 벽에이 기괴한 그림이 있습니다 우리는 벽에있는 액세스 라인 우리는 여기서 내려와 교육 수준 레이블은 알파벳순으로 표시됩니다 오히려 더 논리적 인 높은 수준의 교육이 필요하다

그런 다음 데이터를 얻었습니다 원뿔 모양으로 표시되어 읽기와 비교가 어려우며 더 악화되었습니다 색상과 질감으로 혹시 극단을 잡고 싶다면 대학원 학위는 심지어 8 %의 바닥 값과 고등학교 졸업을위한이 값으로 만들지 않습니다 상단에서 28 %로 잘립니다

그런데 이것은 양의 그림이며, 사람들은 이런 종류의 물건과 그것은 나를 미치게한다 더 나은 차트를보고 싶다면 똑같은 데이터, 바로 여기 있습니다 그것은 직선형 막 대형 차트입니다 평평하고 간단합니다 그것은 가능한 한 깨끗합니다

그리고 이것은 여러면에서 더 낫습니다 가장 효과적인 방법은 그것은 분명히 의사 소통합니다 산만 함이 없으며 논리적 인 흐름입니다 이것은 얻을 것이다 그 점은 훨씬 더 빠릅니다 그리고 저는 그것의 또 다른 예를 드릴 수 있습니다

여기 차트가있다 이전에 소득에 대한 급여 여기에 목록이 있는데, 데이터 과학자가 있습니다 내가 그것에주의를 끌기 원한다면, 나는 그 주위에 원을 그리는 옵션을 가지고있다 그것을 설명하기 위해 그 옆에 숫자를 붙일 수 있습니다

그것이 무엇인지 쉽게 알 수있는 한 가지 방법입니다 계속 우리는 공상을받을 필요조차 없습니다 있잖아, 방금 펜과 포스트잇을 꺼 냈어 나는 평균 수명에 관한 실제 데이터를 막대 그래프로 그려 봤다

이것은 이야기를 전한다 또한 시에라 리온에 뭔가 끔찍한 잘못이 있음을 알았습니다 하지만 이제 이야기 해 봅시다 프레젠테이션 그래픽에 서사 흐름을 만드는 방법 이렇게하기 위해, 나는 내가 가장 많이 인용 한 학술지 차트, A Third Choice : Review 회복 적 재판의 심리 결과에 관한 경험적 연구 에 대해 생각하다 청소년 범죄에 대한 중재로서, 주로 청소년

그리고이 논문은 흥미 롭습니다 실제로 그것들을 묶을 수있는 충분한 텍스트가있는 약 14 개의 막 대형 차트입니다 과 거기에 흐름이 있음을 알 수 있습니다 차트는 매우 간단합니다 이것은 형사 사법 제도는 공정했다

왼쪽의 두 막대는 희생자입니다 두 사람 오른쪽에있는 막대는 범죄자입니다 왼쪽의 각 그룹에는 참여한 사람들이 있습니다 회복 적 정의에서, 범죄에 대한 희생자 – 가해자 중재가 더 많아졌습니다 각 세트에 대해 권리는 표준 형사 절차를 거친 사람들입니다

그것은 법원을 말한다 일반적으로 탄원 협상을 의미합니다 아무튼, 두 경우 모두에서 회복 적 정의 술집이 더 높습니다 사람들은 그것이 공정하다고 말할 가능성이 더 큽니다 그들 또한 그들의 이야기를 전할 기회가 있다고 느꼈다

그 이유 중 하나는 그것이 공정하다고 생각할 수도 있습니다 그들은 또한 범죄자가 더 자주 책임을 져야한다고 생각했습니다 사실, 당신이 가해자에 관해 법정에 간다면, 그 사람은 50 % 미만입니다 범법자들은 스스로 판결을 내린다 그러면 용서와 사과에 갈 수 있습니다

그리고 다시 말하지만, 이것은 실제로 코드 작성의 간단한 작업이며 엄청난 양의 차 사실 큰 차이가있는 이유 중 하나는 법원 앞에서 범죄자는 희생자를 만나는 경우는 거의 없습니다 내가 필요로하는 것도 또한 나온다 학문의 다발이 술취한 운전을 포함하는 것을 포함했기 때문에 이것을 조금만 한정하기 위해 부상이나 사고는 없습니다 글쎄, 우리가 그들을 데리고 나오면, 우리는 커다란 변화를 보게됩니다

그리고 우리는 사람이 결과에 만족하는지 여부에 갈 수 있습니다 다시, 우리는 회복 적 정의 희생자가 아직도 범죄에 대해 화가 났는지 여부, 이제 바 조금 다릅니다 그리고 그들이 revictimization을 두려워하는지, 그리고 그것은 2 대 1 차이 그리고 마지막으로 범죄자 또는 재범에 대한 재범주의; 과 거기에는 큰 차이가 있습니다

그리고 제가 여기있는 것은 많은 차트들이 있습니다 매우 읽기 쉽고 전반적인 느낌을주는 방법에 대한 흐름이 다양합니다 그 다음에 조금 더 자세하게 설명합니다 여기서 아무것도 공상에 들지 않습니다 대화 형 서비스는 없습니다

움직이는 것도 없으며, 17 가지 방향으로 흐르지도 않습니다 그것은 쉽지만 이야기를 따르고 그것은 내러티브에 데이터를 알려주며 프레젠테이션 그래픽을 사용하여 주요 목표로 삼으십시오 합계 : 프레젠테이션 또는 사용하는 그래픽 프리젠 테이션을 위해 탐색 용 그래픽과 동일하지 않습니다 그들은 다르다 필요와 목표는 다릅니다

그러나 당신이하는 일과 상관없이, 그래픽과 당신이 말하는 것을 집중하고 있습니다 무엇보다도 강력한 서사를 창출합니다 당신이 예상대로 다른 관점의 관점을 제공하고 질문에 대답합니다 고객의 질문과 가장 신뢰할 수있는 확실한 정보와 최고의 정보를 제공합니다 분석에 대한 자신감

원하는 데이터 과학 및 의사 소통의 마지막 요소 이야기하는 것은 재현 가능한 연구입니다 그리고 당신은이 생각이라고 생각할 수 있습니다 너는 원한다 그 노래를 다시 연주 할 수 있습니다 그 이유는 데이터 과학 프로젝트가 드물게 "one and done;" 오히려 그들은 증분이되는 경향이 있으며 누적되는 경향이 있습니다

그들은 그들이 작업하고있는 이러한 환경에 적응하는 경향이 있습니다 따라서 중요한 여기에있는 것들을, 아마, 당신이 매우 간단하게 요약하고 싶다면, 이것입니다 : 당신의 일을 보여주세요 이것에 대한 몇 가지 이유가 있습니다 나중에 연구를 수정해야 할 수도 있습니다 자체 분석

다른 프로젝트를하고있을 수도 있고 이전 프로젝트에서 뭔가 빌리고 싶습니다 연구 미래의 시점에서 다른 사람에게 전달해야 할 가능성이 높습니다 당신이 한 일을 이해할 수 있어야합니다 그리고 나서 매우 중요한 의미가 있습니다

책임에 대한 과학적 연구와 경제적 연구 모두에 문제가있다 당신은 할 수 있어야합니다 당신이 책임있는 방식으로 일을했으며 당신의 결론이 정당하다는 것을 보여주십시오 그것은 고객, 기관, 규제 기관, 학계 평론가, 많은 사람들에게 자금을 지원합니다 이제 공개 데이터의 개념을 잘 알고 있을지 모르지만 친숙하지 않을 수도 있습니다

개방형 데이터 과학의 개념; 그것은 열린 데이터 이상입니다 예를 들어 오픈 데이터 사이언스 컨퍼런스 (Open Data Science Conference)와 ODSCcom이 있습니다 그리고 그것은 일년에 세 번씩 다른 장소에서 만난다 그리고 이것은 전적으로, 물론, 헌신적 인 것입니다

개방형 데이터를 사용하여 데이터 과학을 열어 사람들에게 투명하게 공개 그 주변 이 작업을 정말 간단하게 만들 수있는 한 가지는 Open이라고하는 것입니다 OSFio에있는 Science Framework 귀하의 데이터와 연구를 공유하는 방법입니다

다른 사람들과 모든 일을 처리하는 방법에 대한 주석이 있습니다 그것은 만든다 우리가 필요로하는 투명성 연구 내 전문 단체 중 하나 인 심리 과학 협회 (Association for Psychological Science)는 이에 대한 주요한 주도권을 가지고있다 그들은 윤리적으로 많은 사람들이 자신의 데이터를 공유하도록 강력히 권장하고 있습니다

연구를 수행하기도 전에 허용 된 방법을 절대적으로 공유해야합니다 엄격한 지적 정직과 책임감을 얻는 방법 이제는 데이터를 보관하고 해당 정보를 사용 가능하게하고 선반에 놓으십시오 여기서 원하는 작업은 모든 데이터 세트를 보관하려는 것입니다 둘 다 당신이 데이터 세트로 무엇을하기 전에 완전히 원시 처리를하고, 그 과정의 모든 단계까지 최종 클린 데이터 세트

이와 함께 여러분이 작성한 모든 코드를 그 과정에서 사용되었고 데이터를 분석했다 R과 같은 프로그래밍 언어를 사용했다면 또는 Python을 사용하면 정말 간단합니다 SPSS와 같은 프로그램을 사용했다면 구문을 저장해야합니다 파일로 변환 한 다음 그렇게 할 수 있습니다 그리고 다시, 무엇이든, 논평을 확실히하십시오 자유롭게 설명하고 자신을 설명하십시오

이제 그 부분은 프로세스를 설명해야한다는 것입니다 너 혼자 일하는 소파에 앉아있는이 외로운 사람이 아니기 때문에 다른 사람들과 당신이 왜 그렇게했는지 설명 할 필요가 있습니다 너는 필요해 선택을 설명하고 그 선택의 결과, 되돌아 가야했던 시간 다시 시도해보십시오 이것은 또한 미래를 보장하는 원리로 작용합니다

여기에 몇 가지 일을하고 싶습니다 첫번째; 자료 비 독점적으로 데이터를 저장하려고합니다 CSV 또는 쉼표로 구분 된 값 파일과 같은 형식은 CSV 파일을 읽을 수 있기 때문에 가능합니다 독점 SPSS

sav 형식으로 저장 한 경우 다음과 같은 문제가 발생할 수 있습니다 누군가 그것을 나중에 사용하려고 시도하고 열 수 없습니다 또한 저장 공간이 있습니다 너는 싶어한다 모든 파일을 GitHub과 같은 안전하고 액세스 가능한 위치에 저장하십시오

최선의 선택 그런 다음 코드를 사용하면 종속성 관리와 같은 것을 사용할 수 있습니다 Packat for R 또는 가상 환경 for Python과 같은 패키지는 당신이 사용하는 패키지 때로는 일을하기 때문에 항상 작동하는 버전이 있습니다 업데이트되고 깨졌습니다

이것은 시스템이 당신이 항상 일하게 될 것이다 전반적으로, 당신도 이것에 대해서 생각할 수 있습니다 당신 자신을 설명하고 싶습니다 그것을하기위한 깔끔한 방법은 서술을 노트에 넣는 것입니다 이제, 당신은 실험실 도서 또는 디지털 책을 할 수도 있습니다

정말 일반적인 것, 특히 네가 파이썬을 사용하는 Jupyter는 중간에 "y"가 있습니다 Jupyter 노트북은 대화식입니다 노트북 그래서, 여기 제가 파이썬으로 만든 스크린 샷이 있습니다 제목이 있습니다

당신은 텍스트를 가지고 있습니다, 당신은 그래픽을 가지고 있습니다 당신이 R에서 일하고 있다면, 당신은 이것을 통해 할 수 있습니다 RMarkdown이라고 불리는 것 RStudio에서와 같은 방식으로 작동합니다 Markdown과 주석을 달 수 있습니다

rmarkdownrstudiocom에서 자세한 정보를 얻을 수 있습니다 예를 들어, 제가 한 R 분석이 있습니다 코드를 볼 수 있듯이, 왼쪽으로 가면 오른쪽에 가격 인하 버전이 표시됩니다

이것에 대해 깔끔한 점은 여기서 약간의 코드,이 제목과이 텍스트, 그리고이 작은 R 코드의 코드는 다음과 같습니다 이 서식이 지정된 텍스트로 표시된이 제목은 전체 텍스트로 바뀝니다 R 출력 바로 거기 그것은 일을하는 좋은 방법입니다 RMarkdown을한다면 실제로 문서를 RPubs라는 이름으로 업로드 할 수있는 옵션이 있습니다

그게 누구든지 액세스 할 수있는 온라인 문서 다음은 샘플 문서입니다 과 보러 가고 싶다면이 주소로 갈 수 있습니다 좀 길어서 갈거야 그걸 당신이 쓰도록 내버려둬 요

하지만, 요약하면 : 여기에 우리가 가진 것이 있습니다 하고 싶다 작업을 수행하고 공동 작업을 지원하는 방식으로 정보를 보관하십시오 너의 설명을해라 선택, 당신이 한 일, 당신이 어떻게했는지를 보여줍니다

이를 통해 미래에 직장을 증명할 수 있으며, 그래서 그것은 다른 사람들을 위해 다른 상황에서 작동 할 것입니다 그리고 가능한 한 많은 어떻게하는지, 내러티브를 공유하여 사람들이 자신의 프로세스와 프로세스를 이해할 수 있도록하십시오 당신의 결론이 정당하고, 강하며, 믿을 만하다는 것을 알 수 있습니다 자, 내가 언급 한 것 데이터 과학에 관해 이야기 할 때 여러 번, 나는이 결론에서 다시 그것을 할 것입니다 사람들에게 다음 단계를 제공하는 것이 중요합니다

그리고 지금 당장 당신을 위해 할거예요 이 매우 일반적인 개요 과정을 본 후에해야 할 일이 무엇인지 궁금하다면, 나는 몇 가지 아이디어를 줄 수있다 1 번, 아마도 코딩을 시도하기 시작하고 싶을 것입니다 R 또는 Python에서; 우리는 그것들을위한 코스가 있습니다 데이터 시각화를 시도해보십시오

당신이 할 수있는 가장 중요한 것들 중 하나 통계를 다듬을 수도 있습니다 그리고 그것과 함께 어쩌면 몇 가지 수학 그리고 기계에 손을 대고 싶을 수도 있습니다 배우기

이 모든 것들이 당신을 데리고 데이터 과학의 실천을 이끌 것입니다 당신 또한 데이터 소싱을보고 시도 할 정보를 찾을 수 있습니다 그러나, 무슨 일이 일어나 든 관계없이 그것을 유지하려고 노력하십시오 예를 들어, 데이터 과학을 적용 할 수 있습니다 마케팅, 스포츠, 건강, 교육, 예술, 그리고 정말 거대한 다른 것의 수

그리고 우리는 여기 datalabcc에서 모든 것에 대해 이야기하는 코스를 갖게 될 것입니다 그 또한 데이터 과학 커뮤니티에 참여하기를 원할 수도 있습니다 당신이 갈 수있는 최고의 컨퍼런스 중 하나는 O'Reilly Strata입니다

1 년에 1 번 전세계에서 Predictive Analytics World도 있습니다 다시 몇 가지가 있습니다 1 년에 1 회 세계를 여행합니다 그런 다음 훨씬 작은 회의가 있습니다

나는 Tapestry를 좋아합니다 또는 데이터 과학의 스토리 텔링에 관한 tapestryconferencecom 그리고 추출, 위대한 데이터 중 하나 인 importio가 입력 한 데이터 스토리에 대한 1 일간의 컨퍼런스 웹 데이터 스크래핑에 사용할 수있는 소싱 애플리케이션

일을 시작하려면 실제 데이터를 사용하면 Kagglecom에 가서 데이터 과학을 후원하는 것이 좋습니다 대회에는 실제로 현금 보상이 있습니다 작업 할 수있는 멋진 데이터 세트도 있습니다 거기에서 그들이 어떻게 일하고 다른 사람들의 결과와 결과를 비교하는지 알아 내야합니다

과 일단 당신이 그것에 편안함을 느끼면, 실제로 돌아 서서 시도해 볼 수 있습니다 일부 서비스; datakindorg는 인도 주의적 데이터 과학을위한 최고의 조직입니다 서비스 그들은 전 세계 주요 프로젝트를 수행합니다

나는 그들의 예를 좋아한다 다른 것이있다 네가 할 수있는 일 Do Good Data라고하는 연례 행사가 있고 datalabcc는 2 년에 1 번씩 데이터 charrettes을 후원하는 것이 좋습니다

유타 지역에서 데이터에있는 지역 비영리 단체와 협력 할 수 있습니다 그러나 무엇보다도, 나는 이 한가지를 기억하십시오 : 데이터 과학은 근본적으로 민주적입니다 뭔가있어 모두가 어떤 방식 으로든 배우고, 모양을 만들거나 형성해야합니다 함께 일할 수있는 능력 데이터는 근본적인 능력이며 모든 사람들이 함께 일하는 것을 배우는 것이 더 나을 것입니다

데이터를 지능적이고 민감하게 처리합니다 또는, 다른 방법으로 말하면 : 데이터 과학은 당신을 필요로합니다 이 입문 과정에서 나와 합류 해 주신 것에 정말 감사드립니다 앞으로 datalabcc에서 다른 코스를 보게 될 것입니다

"데이터 소싱"에 오신 것을 환영합니다 저는 Barton Poulson이고이 과정에서 우리는 Data Opus에 대해 이야기 할 것입니다 필요한 데이터 여기서 아이디어는 데이터 없음, 데이터 과학 없음, 그리고 그것은 슬픈 일입니다 그래서, 그것을 떠나기보다는 우리는이 코스를 사용하여 기존 데이터 및 방법에 접근하기위한 데이터 및 방법 측정 및 평가 새로운 커스텀 데이터를 생성합니다

그것들을 함께 가져 가면 행복한 상황이됩니다 에서 같은 시간에 우리는 접근 가능하고 개념적이며 기술이없는 수준에서이 모든 것을 할 것입니다 기술적 인 손재주가 나중에 다른 코스에서 발생하기 때문입니다 그러나 지금은, 데이터를 말하자 데이터 소싱의 경우, 우리가 먼저 이야기하고자하는 것은 측정입니다

그 범주 내에서 우리는 메트릭에 대해 이야기 할 것입니다 여기 아이디어는 실제로 당신이 그것을 치는 기회를 원한다면 당신의 표적이 무엇인지 아는 것이 필요합니다 몇 가지가있다 이것에 대한 특별한 이유 우선, 데이터 과학은 행동 지향적입니다

목표는 뭔가를 단순히 이해하는 것과 반대되는 것으로 행동하십시오 학업 개업의 또한 목표는 명시 적이어야하며 이는 중요합니다 목표는 당신의 노력을 안내 할 수 있습니다 그래서, 당신은 정확히 무엇을 성취하려고하는지 말하고 싶습니다

그래서 당신은 언제 거기에 도착하는지 압니다 또한 클라이언트의 이익을위한 목표가 존재하며 좌절을 예방할 수있다 그들은 당신이하고있는 일을 알고 있고, 당신이해야 할 일을 알고 있습니다 거기까지 마지막으로 애널리스트의 이익을 위해 목표와 측정 항목이 존재합니다

그들은 당신이 당신의 시간을 잘 사용할 수 있도록 도와주기 때문입니다 너 언제 끝났는지 알지 너 언제 앞으로 나아갈 수 있고, 모든 것이 좀 더 효율적이고 조금은 나아지게 만듭니다 생산성 향상 그리고 우리가 이것에 대해서 이야기 할 때, 당신이하고 싶은 첫 번째 일은 특정 프로젝트 또는 도메인에서의 성공 당신이있는 곳, 상거래에 따라 판매 또는 클릭률 또는 신규 고객을 포함 할 수 있습니다

교육에서 시험 점수를 포함; 졸업률이나 유지율을 포함 할 수 있습니다 정부에서는 주택 및 일자리와 같은 것을 포함하십시오 연구에서는 사람들에게 봉사 할 수있는 능력을 포함 할 수 있습니다 너는 더 잘 이해해야한다 그래서, 도메인에 상관없이 다른 표준이있을 것입니다

성공하려면 도메인에 무엇이 적용되는지 알아야합니다 다음은 구체적입니다 측정법 또는 측정 방법 이제 다시 몇 가지 카테고리가 있습니다 그곳에 핵심 성과 지표 또는 KPI가있는 비즈니스 메트릭, 스마트 목표가 있습니다

(약어), 여러 목표를 갖는 문제도 있습니다 내가 말할거야 그것들 각각에 대해 지금은 잠깐입니다 우선 비즈니스 메트릭에 대해 이야기 해 봅시다 상업적 세계에 있다면 성공을 측정하는 몇 가지 일반적인 방법이 있습니다

매우 분명한 것은 판매 수익이다 너는 돈을 벌고 있니, 너는 물건을 옮기고 있니? 당신은 판매를 얻고 있습니까? 또한 리드 생성, 신규 고객 또는 신규 고객에 대한 문제가 있습니다 잠재적 인 고객은 미래의 판매와 관련되어 있기 때문입니다 저기있다 또한 고객 가치 또는 평생 고객 가치의 문제이므로 소수의 고객이있을 수 있습니다

고객은 모두 수익이 있지만 실제로이를 사용하여 수익을 예측할 수 있습니다 현재 시스템의 전반적인 수익성 그런 다음 해지 비율이 있습니다 새로운 고객을 잃고 얻고 많은 매출을 올리는 것과 함께하십시오 그래서, 이들 중 어떤 것도 성공을 정의하고 측정하는 잠재적 방법입니다

잠재 성이있다 메트릭에는 다른 것이 있지만 이것들은 공통적 인 것들입니다 지금, 나는 이전에 언급했다 핵심 성과 지표 또는 KPI라고하는 것 KPI는 David Parmenter와 그는 비즈니스에 대한 핵심 성과 지표라고 설명합니다

넘버 원은 결산이 아닌 비 금융이어야한다 그것과 관련되거나 협회의 전반적인 생산성을 측정하는 것 그들 예를 들어 매주, 매일 또는 지속적으로 수집 된 정보와 같이시기 적절해야합니다 그들 CEO의 중점을 두어야하기 때문에 고위 경영진은 일반적으로 조직이 KPI에 따라 행동하는 방식에 영향을주는 결정 그들은 간단해야합니다

조직의 모든 사람들은 모두가 자신의 존재를 알고 자신에 대해해야 할 일을 알고 있습니다 팀 기반이어야하므로 각 팀이 각 팀을 만날 책임이 있습니다 KPI의 그들은 중요한 영향을 미쳐야합니다 하나 이상의 중요한 결과에 영향을 미치므로 수익을 올리고 시장에 도달 할 수 있습니다 또는 개선 된 제조 시간 및 더 적은 결함

마지막으로, 이상적인 KPI는 제한된 어둠을 가지고 있습니다 그것은 잘못된 행동을 보강하고 보람을 줄 가능성이 적음을 의미합니다 시스템을 악용하는 사람들 다음으로 SMART 목표가 있습니다 SMART는 SMART 구체적이고, 측정 가능하며, 특정인에게 지정할 수 있음, 사실적 (당신을 의미 함) 당신이 가지고있는 자원으로 실제로 그것을 할 수 있습니다

), 시간 제한, (그래서 당신은 알고 있습니다 그것이 완료 될 수있을 때) 따라서 목표를 구성 할 때마다 각 목표에 대해 평가해야합니다 이 기준은 메트릭으로 사용하는 것이 좋은 목표라고 말하는 방식입니다 우리 조직의 성공을 위해 그러나 이제는 트릭이 여러 번있을 때입니다

목표, 가능한 여러 끝점 그리고 어려운 이유는, 음, 수익을 극대화하려는 경우 또는 단순한 졸업률을 극대화하려고 노력했습니다 당신이 할 수있는 많은 것들이 있습니다 더 많이된다 동시에 여러 가지 것에 집중해야 할 때 어려울 수 있습니다

특히 이러한 목표는 충돌 할 수 있습니다 하나를 극대화하기 위해하는 일은 다른 것을 손상시킬 수 있습니다 그렇게되면 실제로 의도적 인 프로세스에 참여해야합니다 최적화, 최적화해야합니다 그리고 당신이 이것을 할 수있는 방법이 있습니다

충분한 데이터를 가지고있다 당신은 수학적 최적화를 통해 이상적인 균형을 찾을 수 있습니다 하나의 목표와 다른 목표를 동시에 추구하려는 노력 자, 이것은 매우 일반적인 것입니다 요약하고 이것으로 끝내자

즉, 측정 기준이나 측정 방법이 도움이 될 수 있습니다 귀하의 조직이 얼마나 잘 작동하고 있는지 그리고 얼마나 잘 도달했는지에 대한 인식 목표 성공을 정의하고 진행 상황을 측정하는 데 사용할 수있는 여러 가지 방법이 있습니다 그 일을 향해 그러나 트릭은 노력의 균형을 동시에 여러 목표에 도달하면 최적화와 같은 필요성이 발생할 수 있습니다

데이터 소싱 및 측정에 관해 이야기 할 때 매우 중요한 한 가지 문제는 측정의 정확성 여기에있는 아이디어는 버려야 할 필요가 없다는 것입니다 모든 당신의 아이디어; 당신은 노력을 낭비하고 싶지 않습니다 매우 정량적으로 이것을하는 한 가지 방법 패션은 분류 표를 만드는 것입니다 그럼,이게 보이는거야, 너 얘기하는거야

예를 들어 긍정적 인 결과, 부정적인 결과 등 그리고 실제로 여기 상단에 여기의 가운데 두 열은 이벤트가 존재하는지 여부, 집안에 불이 났는지, 판매가 발생했는지, 세금 탈퇴자가 있든간에

특정 상황이 실제로 일어나고 있는지 여부입니다 여기 왼쪽에는 테스트 또는 표시기는 그 일이 일어나고 있거나 일어나지 않았 음을 암시합니다 그리고 너는 진실한 긍정의이 조합이 있으십시오; 테스트에서 문제가 발생했다는 말을 듣고 실제로, 그리고 거짓 긍정; 시험에서 그 일이 일어난다 고 말하면서, 그러나 그렇지 않다 그 다음에 그 참된 네거티브 아래서, 테스트에서 그것이 일어나지 않는다고 말하는 것이 맞습니다 그 다음에 테스트에서 아무 일도 없다고 말하는 위조 방지책이 있지만 사실 사건 발생

그런 다음 열 합계, 총 수를 계산하기 시작합니다 이벤트가 있거나 없을 경우, 테스트 결과에 대한 행이 합계됩니다 자, 이걸로 당신이 얻는 것은 4 가지 종류의 정확도, 혹은 정말로 4 가지 다른 양화 방식입니다 정확성 그리고 그들은이 이름들 : 민감성, 특이성, 양성 예측도, 음성 예측도 나는 어떻게 각각 아주 간단하게 보여줄 것인가? 그들의 작품

감도는 이런 식으로 표현할 수 있습니다 화재가 발생하면 경보가 울립니다 반지? 당신은 그 일이 일어나길 원합니다 그래서 진정한 긍정적 인면을 살펴 보는 것입니다 총 알람 수로 나눈 값입니다

따라서 테스트 긍정적 인 것은 알람이 있음을 의미합니다 사건은 화재가 있음을 의미합니다 언제든지 알람이 울리기를 원합니다 화재 반면에 특이성은 이러한면의 일종입니다

존재하지 않는 경우 화재, 알람은 조용하게 유지됩니까? 이것은 당신이 진실의 비율을보고있는 곳입니다 화재가없고 화재 경보가 울리지 않는 총 결석 이벤트 제외 그게 네가 원하는거야 자, 그들은 열을보고 있습니다 옆으로 갈 수도 있습니다 행

따라서, 첫 번째 것은 긍정적 인 예측 가치이며, 종종 PPV로 약칭되며, 우리는 순서를 조금 뒤집습니다 알람이 울리면 거기에있었습니다 화재? 이제 진정한 긍정적 인면을보고 총 수로 나눕니다 긍정의 총 긍정 수는 경보가 울릴 때마다 발생합니다

진정한 긍정은 불이 났기 때문에 그리고 부정적인 예측 가치, 또는 NPV는 경고음이 울리지 않는다고 말하며, 실제로 화재가 없다는 것을 의미합니까? 글쎄, 여기 네가 참된 네거티브를보고있어 총 네가티브로 나눠서, 그것이 울리지 않는 시간 그리고 다시, 당신은 원합니다 이를 극대화하여 진정한 네거티브가 모든 네거티브를 설명합니다

진정한 긍정적 인 요소가 모든 긍정적 인 요소를 설명하기를 원한다 자, 이 모든 수치는 0 %에서 100 %까지 올라갑니다 아이디어는 각각을 최대화하는 것입니다 당신이 할 수있는만큼 하나 요약하면이 테이블에서 4 가지 정확도를 얻었습니다

각각 다른 초점 그러나 동일한 전반적인 목표, 당신은 진실을 확인하기를 원합니다 긍정과 참된 부정적 결과를 피하고 위양성과 위양성을 피하십시오 과 이것은 측정의 정확성에 대한 지수를 실제로 나타내는 방법 중 하나입니다 이제 데이터 소싱은 매우 정량적 인 주제처럼 보일 수 있습니다

특히 우리가 이야기 할 때 측정 그러나 나는 여기서 한 가지 중요한 것을 측정하고 싶습니다 그것은 사회적인 맥락입니다 측정 여기에있는 아이디어는 사람들이 사람들이라는 것입니다

자신의 목표를 달성하고, 그들 자신의 길을 가고 있습니다 그리고 우리 모두는 우리 자신의 생각과 감정을 가지고 있습니다 서로 항상 일치하는 것은 아니며 측정에 영향을 줄 수 있습니다 그래서, 예를 들어, 목표를 정의하려고 할 때 목표를 극대화하려고 할 때 예를 들어 비즈니스 모델과 같은 것을보고 싶습니다 조직의 사업 모델, 그들이 사업을 수행하는 방식, 돈을 버는 방식, 그것의 정체성과 그 이유

그리고 만약 당신이 추천하고 그것과 상반된다면 실제로 자신의 핵심 정체성에 대한 위협으로 인식 될 수있는 비즈니스 모델에 이르기까지, 사람들은 그 상황에서 놀란다 또한, 제한, 그래서 예를 들어, 조직적으로나 문화적 으로든 법률, 정책 및 관습이있을 수 있습니다 목표를 달성 할 수있는 방법을 제한 할 수 있습니다 이제는 대부분이 이해가됩니다 아이디어는 당신이 원하는 어떤 것도 할 수 없다는 것입니다

당신은 이러한 제약이 필요합니다 그리고 언제 당신은 당신의 추천을합니다, 아마 당신이 그들 인 것처럼 창조적으로 일할 것입니다 여전히 법적으로나 윤리적으로 행동하지만 이러한 제약 사항을 인식 할 필요가 있습니다 다음은 환경입니다 그리고 여기에서 아이디어는 경쟁이 조직간에 발생한다는 것입니다

그 회사는 목표를 달성하려고 노력하고 있지만 회사 B와 경쟁하고 있습니다 그곳에는 조직 내에서의 경쟁이 더욱 심하게 있습니다 이것은 실제로 사무실 정치에 대한 인식입니다 컨설턴트로서 추천을 할 때 당신의 분석에 기초하여, 당신은 조금 축구를 떨어 뜨리는 것이 당신을 이해할 필요가 있습니다 사무실에 들어가면 사물을 한 사람의 직업으로, 어쩌면 해가 될 것입니다

다른 그리고 당신의 권고가 최대한 효과를 발휘하기 위해서 사무실에서 잘 놀아 라 그것은 당신이 만드는 것처럼 당신이 알고 있어야 할 것입니다 당신의 추천 마지막으로 조작 문제가 있습니다 그리고 슬픈 자명 한 사실에 대해서

사람들은 보상 체계, 어떤 보상 체계도 착취 당할 것이며 사람들은 일반적으로 시스템을 게임하게됩니다 이것은 특히 강한 단절이있을 때 발생합니다 당신은 적어도 80 퍼센트를 얻어야합니다 그렇지 않으면 당신은 해고되고 사람들은 무엇이든 할 것입니다 그들의 숫자는 80 % 인 것처럼 보입니다

당신이 볼 때 이것은 엄청 많이 일어난다 임원 보상 시스템을 갖추고 있다면 지분 학교 테스트가 매우 높을 때 많이 보입니다 그것은 엄청난 수의 상황에서 발생합니다 따라서 위험을 인식하고 있어야합니다 착취와 게임

이제 모든 것이 사라 졌다는 것을 생각하지 마십시오 포기하지 마라, 너 여전히 훌륭한 평가를 할 수 있습니다 좋은 통계를 얻을 수 있습니다 당신이 당신의 연구와 연구를 수행함에 따라이 특별한 이슈들과 그들에게 민감합니다 당신이 추천 한대로

요약하면, 사회적 요인이 목표에 영향을 미치고 당신이 그 목표를 달성하는 방법 제한과 결과가 있습니다 목표 및 방법, 실제로, 목표가 무엇인지, 그리고 어떻게해야하는지에 대한 조언을 할 때 이러한 목표에 도달하려면 측정 항목 및 방법과 관련하여 상황이 어떻게 진행되는지에 민감해야합니다 목표를 달성하기 위해 행동을 조정할 것입니다 그렇게하면 더 많은 것을 만들 수 있습니다

자신이 의도 한 방식대로 구현 될 가능성이 높고 정확하게 예측할 가능성이 높습니다 당신의 목표로 일어날 수 있습니다 데이터 소싱과 관련하여 분명히 가장 중요한 것은 것은 데이터를 얻는 것입니다 그러나 적어도 이론적으로는이를 수행하는 가장 쉬운 방법은 기존 데이터 책장으로 가서 가지고있는 데이터를 가져 오는 것으로 생각하십시오

바로 옆에있다 이제는 몇 가지 다른 방법이 있습니다 사내 데이터를 얻을 수 있으며, 공개 된 데이터를 얻을 수 있으며 타사 데이터를 얻을 수 있습니다 생각해 볼 수있는 또 다른 좋은 방법은 독점적, 공개 및 구매 데이터; 세 번은 그 소리를 들었습니다 얘기하자

이들 각각에 대해 좀 더 자세히 설명합니다 따라서 사내 데이터는 이미 귀하의 조직에서 그것에 대해 좋은 점은 정말 빠르고 쉽습니다 이 형식은 컴퓨터의 소프트웨어 종류에 적합 할 수 있습니다 당신이 사용하고 있습니다

운이 좋다면 좋은 문서가 있습니다 사내 사람들끼리 함께 던지기 때문에 조심해야합니다 품질 관리 문제가 있습니다 이제는 모든 종류의 데이터에서 마찬가지입니다 당신은 사정을 알 필요가 없기 때문에 사내에서주의를 기울여야합니다

사람들이 데이터를 수집하고 얼마나 많은 관심을 지불했는지에 대한 정보를 제공합니다 제한 사항도 있습니다 사내에있는 동안 일부 데이터가있을 수 있습니다 사용이 허용되지 않거나 결과를 게시하거나 공유하지 못할 수 있습니다 다른 사람들과 결과

그래서, 이것들은 여러분이 생각할 때 여러분이 생각할 필요가있는 것들입니다 사내 데이터를 사용하려면 어떻게하면 데이터 과학을 용이하게 할 수 있을까요? 프로젝트 특히, 몇 가지 장단점이 있습니다 사내 데이터는 잠재적으로 빠르며, 쉽고 무료 잘만되면 표준화되어 있습니다

어쩌면 원래의 팀도 이 연구는 아직 거기에 있습니다 데이터에 식별자를 추가하면 쉽게 사용할 수 있습니다 당신이 개별적인 수준의 분석을 할 수 있습니다 그러나 사기 측면에서 사내 데이터 단순히 존재하지 않을 수도 있고, 아마도 거기에 있지 않을 수도 있습니다 또는 설명서가 적합하지 않을 수 있습니다

물론 품질이 불확실 할 수도 있습니다 항상 사실이지만, 당신이 가지고있을 수 있습니다 사내 데이터를 사용할 때보다주의를 기울여야합니다 이제 다른 선택은 열려 있습니다 데이터는 도서관에 가서 뭔가를 얻는 것과 같습니다

이것은 자유롭게 준비된 데이터입니다 이용 가능하며, 정부 데이터 및 기업 데이터 및 과학 데이터와 같은 것으로 구성됩니다 여러 출처에서 내가 좋아하는 공개 데이터 소스를 보여 드리겠습니다 그래서 당신은 그들이 어디에 있는지, 그리고 그것이 존재한다는 것을 압니다

아마도, 최고의 하나는 여기 datagov입니다 미국 이것이 바로 미국 정부의 공개 자료가있는 곳입니다 또는 주 수준 1 일 수 있습니다 예를 들어 유타에 있는데 데이터가 있습니다

더 많은 지역 정보를 얻을 수있는 훌륭한 원천입니다 유럽에 계시다면 open-dataeuropaeu, 유럽 ​​연합은 데이터 포털을 엽니 다 그리고 주요 비영리 단체가 있습니다

UN은 통계 및 모니터링 데이터에 대해 uniceforg/statistics를 보유하고 있습니다 세계 보건기구에는 whoint/gho의 세계 보건 전망대가 있습니다 그리고 거기에 퓨 리서치 (Pew Research)와 같은 공공의 이익을 위해 일하는 사기업 센터는 많은 데이터 세트를 공유하고 뉴욕 타임즈는이를 가능하게합니다 API를 사용하여 거대한 양의 데이터를 대량으로 액세스 할 수 있습니다

시간 범위 그리고 두 개의 어머니로드 중 googlecom에 공개 된 Google이 있습니다 훌륭한 데이터입니다 그리고 aws

amazoncom/datasets의 아마존은 엄청난 것을 가지고 있습니다 데이터 세트 따라서 크기가 5 테라 바이트와 같은 데이터 세트가 필요하면 그것을 얻기 위해 갈 곳 자, 이런 종류의 공개를 사용하는 것에 대한 찬반 양론이 있습니다

데이터 첫째, 수백만 달러의 비용이 소요되는 매우 가치있는 데이터 세트를 얻을 수 있다는 것입니다 모여서 처리해야합니다 그리고 매우 다양한 주제와 시간을 얻을 수 있습니다 사람들의 집단 등등

그리고 종종 데이터의 형식이 잘 지정되고 잘 문서화되어 있습니다 그러나 몇 가지 단점이 있습니다 때때로 편향된 샘플이 있습니다 예를 들어, 당신은 오직 인터넷에 접속할 수있는 사람들을 만날 수 있습니다 때때로 데이터의 의미가 명확하지 않거나 정확히 원하는 것을 의미하지는 않습니다

잠재적 인 문제는 분석을 공유해야 할 수도 있으며, 독점적 인 연구를하고 있습니다 글쎄, 대신 열려야 할 것입니다 일부 고객과의 압박을 만들 수 있습니다 마지막으로 개인 정보 보호 문제가 있습니다 기밀성 및 공용 데이터에서 일반적으로 식별자가 거기에서 당신은 더 큰 전체 측정 레벨에서 작업해야 할 것입니다

다른 옵션은 제 3 자의 데이터를 사용하는 것입니다 이러한 서비스는 Data as a Service 또는 DaaS 데이터 중개자라고 부를 수도 있습니다 데이터 중개인에 관한 한 다양한 주제에 대한 엄청난 양의 데이터를 제공하며, 시간과 노력을 들여서 실제로 처리 할 수 ​​있습니다 그리고 그것은 포함 할 수 있습니다

소비자 행동 및 선호와 같은 것들, 연락처 정보를 얻을 수있는 마케팅 정체성과 재정을 수행하면 많은 것들이 있습니다 많은 데이터가 있습니다 브로커 주변, 여기 몇 가지 있습니다 Acxiom은 아마도 마케팅 측면에서 가장 큰 제품 일 것입니다 데이터

주로 미디어 소비를위한 데이터를 제공하는 Nielsen도 있습니다 과 또 다른 조직 인 Datasift가 있습니다 그리고 꽤 예쁘다 다양한 선택이 가능하지만, 큰 것들이 있습니다 이제, 데이터 중개인, 거기에 몇 가지 찬성과 몇 가지 단점이 있습니다

찬성하는 사람이 먼저 있습니다 많은 시간과 노력을 절약 할 수 있습니다 또한 개별 레벨 데이터를 제공 할 수 있습니다 공개 된 데이터를 얻기가 어려울 수 있습니다 공개 데이터는 일반적으로 커뮤니티 수준입니다

그들은 할 수있다 특정 소비자에 대한 정보를 제공합니다 그들은 당신에게 요약과 추론을 줄 수 있습니다 신용 점수 및 결혼 상태와 같은 것들에 관해서 어쩌면 사람이 도박을 하든지간에 또는 담배를 피우십시오 이제, 죄수는 1 호기가 정말 비쌀 수 있습니다

거대한 봉사; 그것은 많은 이익을 제공하고 이에 따라 가격이 책정됩니다 또한, 당신은 여전히 그것의 유효성을 검사 할 필요가있다, 당신은 그것이 당신이 생각하는 것을 의미한다는 것을 다시 한번 확인해야한다 그리고 그것이 당신이 원하는 것과 함께 작동한다는 것입니다 그리고 아마도 여기서 가장 중요한 점은 제 3 자 데이터의 사용은 많은 사람들에게 불쾌감을 줄 수 있으므로 당신이 선택하는 것처럼 요약하면, 기존 데이터를 소싱하는 데이터가 간다면 분명히 데이터 과학은 데이터를 필요로하며 데이터 소스의 3 가지 PS가 있습니다

독점적 인 공공 및 구매 그러나 당신이 사용하는 소스가 무엇이든 관계없이주의를 기울여야합니다 품질 및 사용자의 편의를 위해 데이터의 의미와 유용성 프로젝트 데이터 소싱의 경우 데이터를 가져 오는 가장 좋은 방법은 API라고하는 것 자, 저는 이것을 Prufrock 's의 디지털 버전으로 생각합니다

인어들 TS 엘리어트의 알프레드 프리프록 (Alfred Prufrock)의 러브 송에 대해 잘 알고 있다면 "나는 인어가 각각 노래하는 것을 들었습니다"라고 TS 엘리어트가 말했습니다 그리고 난 좋아 이를 위해 "API가 각자 노래하는 것을 들었습니다"라고 말하면됩니다 이제 더 구체적으로 API에 대해 이야기 할 때, 우리가 말하는 것은 무엇인가입니다

응용 프로그램 프로그래밍 인터페이스 (Application Programming Interface)라고 불리는이 프로그램은 서로 이야기하기 데이터 과학 측면에서 가장 중요한 용도는 당신은 웹 데이터를 얻을 수 있습니다 그것은 당신의 프로그램이 웹으로 직접 갈 수있게 해줍니다 데이터, 마치 로컬 데이터 인 것처럼 다시 가져와야합니다 정말 멋지 네요

의회 이제 데이터 과학을위한 API의 가장 일반적인 버전을 REST API라고합니다 그 Representational State Transfer (대표 상태 전송)를 나타냅니다 그것은 다음과 같은 소프트웨어 아키텍처 스타일입니다 월드 와이드 웹을 사용하면 HTTP를 통해 웹 페이지의 데이터에 액세스 할 수 있습니다

즉, 하이퍼 텍스트입니다 전송 프로토콜 그들은 우리가 알고있는 것처럼 웹을 운영합니다 그리고 다운로드 할 때 일반적으로 자바 스크립트 객체 표기법 (Javascript Object Notation)의 약자 인 JSON 형식으로 가져 오는 데이터입니다 그것에 대한 좋은 점은 사람이 읽을 수 있지만 기계를 사용하는 것이 더 좋습니다

그런 다음 해당 정보를 가져와 다른 프로그램으로 직접 보낼 수 있습니다 과 REST API에 대한 좋은 점은 언어 불가지론 (language agnostic)이라고하는 것입니다 모든 프로그래밍 언어는 REST API를 호출하고, 웹에서 데이터를 가져올 수 있으며, 무엇이든 할 수 있습니다 그것과 함께해야합니다 이제는 흔히 볼 수있는 몇 가지 API가 있습니다

그만큼 첫 번째는 소셜 API라고하는 것입니다 이들은 소셜 네트워크와 연결하는 방법입니다 예를 들어 가장 일반적인 것은 Facebook입니다 Twitter도 있습니다 Google 토크가 사용되었습니다

큰 하나, FourSquare, 그리고 SoundCloud 이것들은 인기있는 것들 그리고 비주얼 API라고 불리는 것이 있습니다 비주얼 데이터, 예를 들어, 구글 맵스가 가장 보편적이지만 YouTube는 무엇인가입니다 특정 웹 사이트 또는 날씨를 얻기위한 AccuWeather에서 YouTube에 액세스합니다

정보 사진은 Pinterest, 사진은 Flickr 그래서, 이것들은 정말로 공통 API를 사용하고 컴퓨터가 이러한 서비스에서 데이터를 가져 오도록 프로그램 할 수 있습니다 사이트를 만들고 자신의 웹 사이트 또는 여기에 자신의 데이터 분석에 통합하십시오 지금, 당신이 이것을 할 수있는 몇 가지 다른 방법이 있습니다 당신은 통계적 프로그래밍 인 R로 프로그램 할 수 있습니다

언어, 당신은 파이썬에서 그것을 할 수 있습니다, 당신은 심지어 아주 기본적인 BASH 명령에서 그것을 사용할 수 있습니다 라인 인터페이스, 그리고 다른 응용 프로그램 톤이 있습니다 기본적으로 액세스 할 수있는 항목이 있습니다 API를 한 방법 또는 다른 이제 R에서 어떻게 작동하는지 보여 드리고자합니다 RStudio에서 스크립트를 열어서 아주 기본적인 정보를 얻으려고합니다

웹 페이지에서 RStudio로 가서 어떻게 작동하는지 보여 드리겠습니다 대본을 열어 보자 RStudio에서는 여기에서 일부 데이터 소싱을 수행 할 수 있습니다 자, 이제 막 사용할거야

JSON Lite라는 패키지를로드하고 그 다음에 몇 가지 웹 사이트 나는 포뮬러 원 자동차 경주에서 역사적인 데이터를 얻으려고 갈거야 Ergastcom에서 가져올 수 있습니다 이제이 페이지로 가면 곧장 갈 수 있습니다

지금 당장 내 브라우저에 그리고 이것이 바로 그 모습입니다 API 문서를 제공하며, 그래서 API를 위해 당신이하고있는 일은 웹 주소와 그 웹에 들어가는 것입니까? 주소에는 원하는 정보가 포함됩니다 여기 R로 돌아가서 잠깐 JSON 형식으로 1957 년 경주에 대한 정보를 얻으려는 경우이 주소로 이동합니다

나는 잠시 그 ​​것으로 건너 뛸 수 있습니다 그리고 여러분이 보게되는 것은 큰 긴 엉망의 일종입니다 여기에 있지만 모든 레이블이 붙어 있으며 여기에서 무슨 일이 일어나는지 컴퓨터에 분명합니다 하자 R로 돌아 가라 그러면 내가 할 일은 URL을 객체에 저장하는 것이다

여기, R에서, 그리고 JSON의 명령을 사용하여 해당 URL을 읽고 저장합니다 그것을 R에 넣으십시오 그리고 나는 그것을 볼 수 있도록 확대 할 것입니다 무슨 일이 있었는지 나는 이런 종류의 텍스트 혼란을 겪었습니다

R 그리고 그 객체의 구조를 얻으려고합니다 그래서 이것을 할 것입니다 바로 여기에서 목록이라는 것을 알 수 있으며 모든 변수의 이름을 제공합니다 각 목록 내에서 그리고 내가 할 일은 다음과 같이 변환 할 것입니다

데이터 프레임에 나열하십시오 나는 목록을 살펴보고 내가 원했던 정보가 어디 있는지 발견했다 위치, 당신은이 큰 긴 진술을 여기에 사용해야한다, 그것은 나에게 운전자의 이름을 줄 것이다 다시 한 번 확대 해 보겠습니다 저기 그들이있어

그리고 난 그 칼럼 만 가져올거야 데이터 프레임의 해당 비트에 대한 이름 그래서 저는 여기에 여섯 가지 변수가 있습니다 그리고 나서 내가해야 할 일은 처음 다섯 가지 사례 만 골라서 일부 변수를 선택하여 다른 순서로 넣을 것입니다 그리고 내가 그렇게 할 때, 이것이 내가 얻는 것입니다

나는 그것을 다시 확대 할 것이다 그리고 처음 다섯 명의 사람들이 1957 년에 뽑은이 데이터 세트는 후안 판지오 (Juan Fangio)입니다 운전사, 그리고 그 해에 경쟁 한 다른 사람들 그래서 내가 한 일은 R에서이 API 호출을 사용하여 매우 간단한 작업 이었지만 웹 페이지에서 데이터를 가져올 수있었습니다 구조화 된 형식으로 작성하고 매우 간단한 분석을 수행합니다

그리고 우리가 한 일을 요약 해 봅시다 이 모든 것을 배웠습니다 우선, API는 웹 데이터로 작업하기가 정말 쉽습니다 구조체를 사용하여 호출 한 다음 프로그램에 직접 입력합니다 너 분석 해봐

그리고 그들은 데이터를 얻고 시작하는 가장 좋은 방법 중 하나입니다 데이터 과학 데이터를 검색 할 때 데이터를 가져 오는 또 다른 좋은 방법은 긁어 모으기 이것이 의미하는 것은 웹 페이지에서 정보를 끌어내는 것입니다 나는 언제 그것을 생각하고 싶은가? 데이터가 공개 상태로 숨어 있습니다

거기에 있습니다, 당신은 그것을 볼 수 있습니다 그러나 쉽고 즉각적인 것은 아닙니다 그 데이터를 얻는 방법 이제 스크래핑을 다루면 몇 가지 데이터를 얻을 수 있습니다 다른 형식

웹 페이지에서 HTML 텍스트를 가져올 수 있으며 HTML 페이지를 웹 페이지에 나타나는 행과 열 PDF에서 데이터를 스크래핑 할 수 있습니다 이미지와 비디오 및 오디오의 모든 종류의 데이터에서 데이터를 스크랩합니다 이제, 우리는 우리가 다른 말을하기 전에 매우 중요한 자격 : 저작권에주의를 기울이십시오 프라이버시

무언가가 웹상에 있기 때문에, 당신이 끌어 당길 수 있다는 것을 의미하지는 않습니다 그것 정보가 저작권으로 보호되므로 여기 예제를 사용하면 이것은 공개적으로 사용할 수있는 물건이며, 작업을 수행 할 때도 동일한 작업을 수행해야합니다 당신 자신의 분석 이제 데이터를 다듬 으려면 두 가지 방법이 있습니다

번호 하나는이를 위해 개발 된 앱을 사용하는 것입니다 예를 들어, importio는 다음 중 하나입니다 내가 좋아하는 것들 그것은 웹 페이지와 그 주소이며, 다운로드 가능한 앱입니다

ScraperWiki도 있습니다 Tabula이라는 응용 프로그램이 있습니다 Google 스프레드 시트 (초당 시연 예정) 및 Excel 또는, 원하지 않으면 앱을 사용하거나 앱이 실제로 당신을 그렇게 할 수없는 것을하려는 경우 스크레이퍼 코드 R, Python, Bash 또는 Java로 직접 만들거나 PHP

자, 이제 어떻게 할 것인가? 웹 페이지 HTML 텍스트를 찾고 있다면, 구조화 된 구조를 풀 (pull)해야합니다 브라우저에서 독자보기가 작동하는 것과 유사한 웹 페이지의 텍스트 HTML 태그를 사용합니다 웹 페이지에서 중요한 정보를 확인하십시오 그래서 시체와 같은 것이 있습니다

헤더 1에는 h1, 단락에는 p, 꺽쇠 괄호가 사용됩니다 정보를 얻을 수도 있습니다 HTML 테이블에서 이것은 행과 열의 실제 테이블이지만 내가 보여주고 있습니다 이것은 또한 테이블과 같은 HTML 테이블 태그를 사용하고 테이블 행에 대해서는 tr, 테이블 행에 대해서는 tr, 테이블에 대해서는 td를 사용합니다 데이터, 그것은 셀입니다

트릭은이 작업을 수행 할 때 테이블 번호와 때때로 시행 착오를 통해 그것을 찾아야 만합니다 내가 한 가지 예를 들자 어떻게 작동하는지 Iron Chef America Competition에서 위키 백과 페이지를 살펴 보겠습니다 나는 지금 웹에 가서 그걸 보여줄거야

그래서, 여기 우리는 위키피디아에 있습니다 철 요리사 미국 그리고 당신이 조금 아래로 내려 가면, 우리는 여기 텍스트의 무리, 우리는 목차를 가지고있다, 그리고 우리는 여기에 내려와, 우리는 승자를 표시하는 테이블, 승자에 대한 통계가 있어야합니다 우리가 원한다고 가정 해 봅시다 분석을 위해이 웹 페이지에서 다른 프로그램으로 끌어와보십시오

글쎄, 극도로 Google 스프레드 시트로이를 쉽게 수행 할 수 있습니다 Google 시트를 열면됩니다 Google 시트의 A1 셀에이 공식을 붙여 넣습니다 그것은 IMPORTHTML입니다 웹 페이지를주고 테이블을 가져오고 있다고 말하면, 따옴표 안에 물건들, 그리고 테이블에 대한 색인 번호

나는 조금 주위를 찌를 필요가 있었다 이 숫자는 표 2였습니다 Google 스프레드 시트로 이동하여 이 작품 여기에 Google 시트가 있으며 지금은 아무 것도 없습니다 하지만 시계 이; 내가이 세포에 이르면 그 정보에 모든 것들을 붙여 넣기 만하면된다

마술처럼 일종의 시트에 전달되어 매우 쉽게 처리 할 수 ​​있습니다 이제 예를 들어 이것을 CSV 파일로 저장하여 다른 프로그램에 넣을 수 있습니다 다양한 옵션 그래서 이것은 웹 페이지에서 데이터를 긁어 모으는 한 가지 방법입니다 API를 사용했지만 정보를 얻기 위해 아주 단순한 하나의 링크 명령을 사용했습니다

자, 그 HTML 표였습니다 또한 PDF에서 데이터를 스크래핑 할 수도 있습니다 그것이 맞는지 당신은 알고 있어야합니다 네이티브 PDF, 텍스트 PDF 또는 스캔 또는 이미징 PDF라고합니다 그리고 그것으로 무엇을 하는가? 네이티브 PDF의 경우 텍스트 요소를 찾습니다

다시 이것들은 이것이 코드임을 나타내는 코드와 같습니다 본문 래스터 이미지, 픽셀 이미지 또는 벡터를 처리 할 수 ​​있습니다 선을 사용하면 많은 상황에서 무한히 확장 할 수 있습니다 그리고 PDF에서, 표 형식의 데이터를 처리 할 수는 있지만, 아마도 Scraper와 같은 전문 프로그램을 사용해야 할 것입니다

Wiki 또는 Tabula를 사용하십시오 마지막으로 이미지 및 비디오와 같은 미디어 및 오디오 이미지를 얻는 것은 쉽습니다 당신은 많은 다른 방법으로 그들을 다운로드 할 수 있습니다 그런 다음 데이터를 읽으려는 경우, 예를 들어 국가, 당신은 그것을 통해 갈 수 있지만 아마도 당신이 프로그램을 작성해야 루프 이미지를 통해 픽셀 단위로 데이터를 읽어 들이고 숫자로 인코딩합니다

통계 프로그램 자, 저의 간단한 요약과 그것을 요약 해 보겠습니다 우선, 가져 오려고하는 데이터에 기존 API가없는 경우 스크래핑을 시도 할 수 있습니다 R이나 Python과 같은 언어로 코드를 작성할 수 있습니다 그러나, 당신이 무엇을 하든지간에, 저작권 및 개인 정보 보호 문제에 민감하므로 더운물에 빠져들지는 않지만 대신에 귀하 또는 귀하의 고객에게 유용 할 수있는 분석을합니다

다음 데이터 소싱의 단계는 데이터를 만드는 것입니다 그리고 구체적으로, 우리는 새로운 데이터 나는 이것에 대해 생각하고 싶다 당신은 손을 잡고있다 그리고 당신은 "데이터를 얻고있다

de novo "라는 새로운 데이터가 필요합니다 따라서 분석에 필요한 데이터를 찾을 수 없습니까? 간단한 해결책은, 너 자신하십시오 그리고 우리는 몇 가지 일반적인 전략들에 대해서 이야기 할 것입니다 그 일을하는 데 사용됩니다 이제 이러한 전략은 몇 가지 측면에서 다양합니다

첫째로 역할 당신은 수동적이며 이미 일어난 일을 단순히 관찰하고 있습니까, 아니면 당신입니까? 데이터를 얻기 위해 상황을 만드는 데 중요한 역할을하는 곳은 어디입니까? 그리고 거기에 "Q / Q 질문", 즉 양적, 숫자, 데이터 또는 정성적인 데이터를 얻으려고합니까? 보통 텍스트, 단락, 문장을 의미합니다 사진, 비디오, 오디오와 같은 것들이 있습니까? 그리고 어떻게 할거 니? 자료? 온라인으로 하시겠습니까, 아니면 직접 방문하길 원하십니까? 자, 여기있다 이것 이외의 다른 선택 사항들도 있지만 이것들은 그 방법의 큰 묘사자들 중 일부입니다 언제 당신은 그것들을 본다, 당신은 가능한 몇 가지 옵션을 얻는다

번호 하나는 인터뷰이고, 나는 그것들에 대해 더 많이 말하십시오 또 하나는 설문 조사입니다 세 번째는 카드 정렬입니다 그리고 네 번째 실제로 실험을 두 종류의 범주로 나누고 싶지만 하나는 실험입니다 첫 번째는 실험실 실험이며, 이는 여러분이 형성하는 직접적인 프로젝트입니다

참여가 어떻게 변하는지를 보는 방법으로서 참가자의 정보 또는 경험 그들의 반응 반드시 참여자라는 의미는 아니지만 그 상황 그리고 A / B 테스트도 있습니다 자동 또는 온라인 테스트입니다 웹 페이지의 유사 콘텐츠가 더 많습니다

그것은 아주 단순한 종류의 실험입니다 사실 웹 사이트 최적화에 매우 유용합니다 요컨대,이 짧은 소개에서 필요한 것을 정확히 얻을 수 있는지 확인하십시오 질문에 대답하는 데 필요한 데이터를 얻으십시오 그리고 어딘가에서 그것을 찾을 수 없다면, 그것을 만드십시오

그리고 언제나처럼, 당신은 가능한 많은 것을 가지고 있습니다 방법 각각에는 그들의 자신의 힘 및 그들의 자신의 타협이있다 그리고 우리는 이야기 할 것입니다 다음 섹션에서 각각에 대해 설명합니다 데이터 소싱의 첫 번째 방법은 내가 이야기하고 싶은 새로운 데이터를 만드는 것은 인터뷰입니다

그게 아니라 가장 일반적인 것이지만 가장 기본적인 문제를 해결하기 위해해야 ​​할 일이기 때문입니다 지금, 기본적으로 인터뷰는 다른 사람이나 그룹과의 대화 일뿐입니다 사람들의 근본적인 질문은 조사를하는 것과는 대조적으로 인터뷰를하는 이유입니다 또는 다른 것? 음, 그럴만한 이유가 있습니다

1 번 : 일하고 있어요 새로운 주제로 사람들의 반응이 무엇인지, 어떻게 반응하는지 등을 알지 못합니다 과 그래서 당신은 무언가를 매우 개방적으로 필요로합니다 2 번 : 새로운 잠재 고객과 작업하고 있습니다 당신은 그들이 무엇을하려고하는지에 대해 그들이 어떻게 반응 할 것인지를 모른다

번호 3 : 현재 상황에서 어떤 일이 진행되고있어 더 이상 작동하지 않으며 무슨 일이 일어나고 있는지 찾아야하며, 개선 할 방법을 찾아야합니다 개방형 정보 당신이 과거에 얻은 곳은 기존 범주이고 경계는 가장 유용한 것 중 하나가 될 수 있습니다 해당 데이터를 가져 오는 방법 당신이 그것을 다른 방식으로 쓰고 싶다면 인터뷰를 원한다 응답을 제한하고 싶지 않을 때 이제 면접에 관해서, 당신은 하나의 매우 기본적인 선택입니다 그리고 그것은 당신이 구조화 된 인터뷰를하는지 여부입니다

그리고 구조화 된 인터뷰, 당신은 미리 결정된 질문들을 가지고 있으며, 모두가 똑같은 것을 얻습니다 같은 순서로 질문한다 응답이 많아도 일관성을 유지할 수 있습니다 개방적이다 그런 다음 구조화되지 않은 인터뷰를 수행 할 수도 있습니다

이 당신이 면접관과 당신이하는 사람인 대화와 훨씬 더 가깝습니다 말하기 – 당신의 질문은 그들의 대답에 대한 응답으로 발생합니다 결과적으로, 구조화되지 않은 인터뷰는 당신이 이야기하는 사람마다 다를 수 있습니다 또한 인터뷰는 대개 직접 해보았지만 놀랍지 만 전화 나 온라인을 통해 할 수 있습니다 이제 인터뷰에 대해 염두에 두어야 할 몇 가지 사항이 있습니다

번호 하나는 시간이다 인터뷰 1 인당 몇 분에서 몇 시간까지 다양합니다 두 번째는 훈련입니다 인터뷰 보통 특별한 훈련이 필요한 특수 기술 자, 질문하는 것은 아닙니다

반드시 어려운 부분 정말 까다로운 부분은 분석입니다 가장 어려운 부분 인터뷰는 주제에 대한 해답을 분석하고 새로운 내용을 추출하는 방법입니다 카테고리 및 추가 연구에 필요한 치수가 포함됩니다 아름다운 것 인터뷰에 관해서는 그들이 결코 예상하지 못한 것을 배울 수 있다는 것입니다 그래서, 요약하면 인터뷰는 새로운 상황이나 새로운 잠재 고객에게 가장 적합합니다

반면에, 그들은 시간이 오래 걸리고 특별한 훈련이 필요합니다 둘 다 면접을 실시하고, 당신이 얻은 높은 질적 데이터를 분석 할 수 있습니다 다음 논리적 데이터 소싱 및 데이터 작성 단계는 설문 조사입니다 이제 이것을 생각해보십시오 : 만약 당신이 뭔가를 알고 싶다면 그냥 물어봐 그것은 쉬운 방법입니다

그리고 특정 상황에서 설문 조사를하고 싶습니다 그만큼 진짜 질문은, 당신이 당신의 화제 및 당신의 경청자를 충분히 예견 할다는 것을입니다 답변? 대답의 범위와 차원 및 범주가 무엇인지 파악하려면 중요한 일이 될 것입니다 그렇게하면 설문 조사가 좋은 접근 방법이 될 수 있습니다 자, 그냥 면접을위한 몇 가지 차원이 있었기 때문에 설문 조사에 대한 몇 가지 차원이 있습니다 당신 폐쇄 형 조사 (closed-ended survey)를 수행 할 수 있습니다

강제 선택이라고도합니다 그것은 객관식을 선택하는 것과 같은 특별한 옵션을 제공합니다 개방형 설문 조사, 모든 사람에게 동일한 질문이 있지만 서면으로 허용합니다 자유 형식의 응답으로 직접 설문 조사를 할 수 있으며 온라인에서도 할 수 있습니다 또는 우편이나 전화를 통해 또는 그러나

그리고 지금은 소프트웨어를 사용하는 것이 매우 일반적입니다 설문 조사 중 온라인 설문 조사에서 가장 일반적으로 사용되는 응용 프로그램 중 일부는 SurveyMonkey 및 Qualtrics입니다 또는 매우 간단한 끝에 Google 설문지가 있고 거기에 간단하고 예쁜 끝이 있습니다 Typeform입니다

더 많은 선택권이 있지만, 이들은 주요 플레이어 중 일부이며 설문 조사 형식으로 온라인 참가자들로부터 데이터를 얻는 방법 자, 좋은 점은 설문 조사는, 그들은 정말 쉽습니다, 그들은 설정하는 것은 매우 쉽고 그들은 정말로 많은 사람들에게 쉽게 보낼 수 있습니다 정말 많은 양의 데이터를 얻을 수 있습니다 에 다른 한편으로, 그들이하기 쉬운 것과 같은 방식으로, 그들은 또한 심하게 행하기 쉽습니다 문제는 당신이 묻는 질문, 모호 할 수있는 질문, 두 배로 묶을 수있는 질문, 로드 할 수 있고 응답 규모가 혼동을 줄 수 있습니다

그래서, 만약 당신이 "나는 결코 이 특별한 방법을 생각하십시오 "그리고 그 사람은 강력하게 동의하지 않는다 정확히 당신이 얻으려고하는 것 그래서, 여러분은 확실히하기 위해 특별한 노력을 기울여야합니다 의미가 명확하고 모호하지 않으며 평가 척도, 사람들이 응답, 매우 명확하고 그들은 그들의 답이 어디로 떨어지는 지 알고 있습니다

어느 것이 우리를 하나가되게한다 사람들이 나쁘게 행동하는 것에 대한 것들을 알고 푸시 설문 조사에 유의하십시오 자, 특히 선거 시간 동안; 우리가 지금 당장하는 것처럼, 밀어 올림 조사는 설문 조사와 마찬가지로, 실제로는 데이터를 얻으려는 편향된 시도이며, 사료 소셜 미디어 캠페인의 경우 또는 98 %의 사람들이 나 한테 동의 해 푸시 설문 조사는 너무 편향된 것이므로 실제로는 한 가지 방법 만 있습니다 질문에 대답해라

이것은 매우 무책임하고 비 윤리적 인 것으로 간주됩니다 연구 관점 그냥 끊어 버려 이제 그 엄청난 위반을 제외하고 연구 윤리의 문제에서 편견을 조심하는 것과 같은 다른 일을 할 필요가있다 말하기, 응답 옵션 및 샘플 선택에서 당신이 정말로 인식하지 못한다면 응답은 어떤 방식 으로든 다른 방식 으로든 밀어 낼 수 있습니다

그것은 일어나고있다 요약하자면, 설문 조사에 대해 말하자 많은 데이터를 얻을 수 있습니다 다른 한편으로, 청중의 가능한 대답에 익숙해야합니다 그래서, 당신은 알다시피, 일종의, 무엇을 기대합니다

그리고 당신이하는 일과 상관없이, 당신은 귀하의 답변이 당신을 대표하는 그룹을 대표 할 수 있도록 이해에 정말로 관심이 있습니다 데이터 소싱의 흥미로운 주제 당신은 데이터를 카드 정렬이라고합니다 자, 이것은 매우 자주 일어나는 것이 아닙니다 학술 연구에서, 그러나 웹 연구에서, 이것은 정말로 중요한 방법이 될 수 있습니다 생각한다 당신이하려고하는 것은 여기서 분자 모델을 만드는 것과 같습니다

사람들의 정신 구조에 대한 정신 모형을 세우려고합니다 더 구체적으로 말하자면, 사람들은 어떻게 정보를 직관적으로 구성합니까? 또한 그것들은 어떻게 물건과 관련이 있는가? 당신이 온라인에서하고 있다고? 이제 기본 절차는 다음과 같이 진행됩니다 작은 주제들로 구성되어 있으며 각 카드를 별도의 카드에 씁니다 그리고 당신은 이것을 물리적으로 할 수 있습니다, 3 장 5 장의 카드와 함께, 또는 디지털로 할 수있는 프로그램이 많이 있습니다 그것의 버전

그러면 당신이하는 일은 응답자 그룹에게이 정보를 제공하는 것입니다 사람들은 그 카드들을 분류합니다 그래서 그들은 서로 비슷한 주제를 섞어서 주제 등등 그리고 그 정보를 가져 가면 그 정보를 얻을 수 있습니다 비평가 데이터를 계산합니다

그것이 거리 또는 다양한 주제의 차이 그러면 원시 데이터를 통해 사물이 구조화되어 있습니다 이제 매우 일반적인 두 종류의 카드 정렬 작업이 있습니다 생성 적이며 평가가 있습니다 생성적인 카드 정렬 작업은 응답자는 자신의 세트를 만들고, 그룹 수를 사용하여 카드 더미를 만듭니다

그들은 좋아한다 그리고 이것은 예를 들어 웹 사이트를 디자인하는 데 사용될 수 있습니다 사람들이 갈 경우 다른 정보 옆에있는 정보를 찾고 있다면 원하는 정보를 얻을 수 있습니다 이를 웹 사이트에 함께 넣어서 어디에서 정보를 얻을 수 있는지 알 수 있습니다 한편, 이미 웹 사이트를 만든 경우 평가 카드 정렬을 할 수 있습니다

이 고정 된 번호 또는 고정 된 이름의 카테고리가있는 곳입니다 예를 들어, 당신의 메뉴를 이미 설정 한 방법 그리고 당신이하는 일은 실제로 사람들이 당신이 만든이 다양한 범주에 카드를 넣으십시오 그것이 확인하는 방법입니다 당신의 계층 적 구조가 사람들에게 의미가 있다는 것

자, 당신이하는 방법, 생성 또는 평가, 당신이 카드 구조를 할 때 당신이 끝내는 것은 흥미로운 종류입니다 Dendrogram이라고 불리는 시각화가 필요합니다 그것은 실제로 가지를 의미합니다 그리고 우리가 가진 것 여기에 실제로는 150 개의 데이터 포인트가 있습니다 피셔 스와 친숙하다면 홍채 데이터, 그게 여기서 벌어지고있는 것입니다 그리고 그것은 왼쪽에있는 하나의 거대한 그룹 그런 다음 조각과 조각으로 조각을 나눠서 여러 가지로 끝낼 때까지 관측, 사실, 결국 개인 차원의 관측

하지만 너는 물건을자를 수있어 2 ~ 3 개의 그룹으로 또는 여기에서 가장 유용한 모든 것을 시각화하는 방법으로 개별 정보 간의 유사성 또는 비 유사성의 전체 집합 네가 사람들을 분류 했어 이제 디지털을 원한다면 아주 빨리 언급 할 것입니다 카드 정렬을 통해 실제 카드를 추적하므로 인생을 무한히 쉬게합니다 정말 어렵습니다

Optimal Workshop 또는 UserZoom 또는 UX Suite와 같은 것을 사용할 수 있습니다 가장 일반적인 선택 사항입니다 이제 우리가 배운 것을 요약 해 보겠습니다 이 매우 간단한 개요에서 카드 정렬에 대해 1 위, 카드 정렬 가능 직관적 인 정보 조직을 계층 적 형식으로 볼 수 있습니다

너와 함께 할 수있어 실제 카드를 사용하거나 똑같은 일을하기 위해 디지털 방식으로 선택할 수도 있습니다 그리고 언제 당신은 실제로이 정보의 계층 적 또는 분 지적 시각화를 얻습니다 구조화되어 서로 관련되어있다 데이터 소싱을 수행 할 때 데이터를 만들고, 때로는 쉬운 방법으로 원하는 것을 얻을 수없는 경우가 있습니다

힘든 길을 취해야 해 그리고 당신은 내가 실험실 실험이라고 부르는 것을 할 수 있습니다 지금 물론, 내가 실험실 실험을 언급 할 때 사람들은 물건을 생각하기 시작합니다 그의 실험실에서 Frankenstein 박사가 있지만 실험실 실험은 이것보다 적습니다 실제로 그들은 조금 더 좋아

제가 경력에서했던 거의 모든 실험은 종이였습니다 잘 조명 된 방에있는 사람들과 연필 하나를 치고 위협적인 것은 아닙니다 실험실 실험을하는 이유는 원인과 결과를 결정하기 때문입니다 그리고 이것은 정보를 얻는 가장 이론적으로 실행 가능한 단일 방법입니다 지금, 실험을 실험으로 만드는 것은 연구자가 적극적인 역할을한다는 사실입니다

조작 된 실험에서 이제 사람들은 조작을 들었을 때 조금 정신이 나갔다 당신이 사람들을 강요하고 그들의 마음을 어지럽 혀 있다고 생각하십시오 그게 의미하는 건 당신이 상황을 조작하고있다 당신은 한 그룹에 대해 다른 것을 일으키고 있습니다

사람이나 다른 상황보다 양성 일 뿐이지 만 사람들이 어떻게 다른 유사 콘텐츠에 반응하는지 확인하십시오 자, 당신은 실험을하고 싶어합니다 집중 연구를 원할 것입니다 보통 한 가지 또는 한 가지를 테스트하기 위해 수행됩니다 한 번에 변이

그리고 그것은 일반적으로 가설 중심적입니다 보통 당신은 실험을하지 않습니다 충분한 배경 ​​연구를 해왔다 "나는 사람들이 이런 식으로 반응 할 것을 기대한다 상황과 다른 방향으로이 방법

"이 모든 핵심 구성 요소는 실험 거의 언제나 샘플을 얻은 방법에 상관없이 무작위로 할당됩니다 당신의 연구에서, 당신은 무작위로 그것들을 하나의 조건 또는 다른 조건에 할당합니다 그리고 그들이하는 일 그룹간에 기존의 차이점을 없애는 것이고 그것은 좋은 방법입니다 혼란과 유물 관리 의도하지 않은 차이점과 관련된 것들 데이터에 대한 대체 설명을 제공하는 그룹 간

너가 좋은 무작위를하면 과제와 그 confounds과 유물보다 충분히 큰 그룹의 사람들이 있습니다 기본적으로 최소화됩니다 이제 실험실 실험을 보게 될 곳이 있습니다 이 버전에서는 눈 추적 및 웹 디자인이 있습니다 이것은 당신이해야 할 곳입니다

컴퓨터 앞에 사람들을 데려 와서 그들이있는 곳을 볼 수있는 물건을 꽂으십시오 찾고 그것이 우리가 예를 들어 사람들이 실제로 측면의 광고를 보지 않는다는 것을 안다는 것을 의미합니다 웹 페이지 수 또 다른 매우 일반적인 장소는 의학 및 교육 분야의 연구이며 내 분야, 심리학 그리고이 모든 것에서, 여러분이 발견 한 것은 실험적 연구입니다

원인 및 결과에 대한 신뢰할 수있는 유효한 정보를 제공하는 데있어 가장 중요한 표준으로 간주됩니다 다른 한편으로, 가지고있는 것이 좋은 것이지만, 그것은 비용을 지불합니다 여기에 어떻게 작동하는지 넘버 1, 실험에는 광범위한 전문 교육이 필요합니다 픽업하는 것은 쉬운 일이 아닙니다

두 가지 실험은 대개 시간이 많이 소요됩니다 노동 집약적이다 나는 사람마다 시간이 걸리는 것을 알고있다 그리고 셋째, 실험 매우 비쌀 수 있습니다 그래서, 그것이 의미하는 바는 당신이 가지고있는 것을 확실히하기 위해서입니다

충분한 배경 ​​조사를 마쳤으며 충분한 상황이 필요합니다 이러한 비용을 정당화하기 위해 실제로 신뢰할 수있는 인과 관계 정보를 얻는 것이 중요합니다 실험을 위해서 요컨대 실험실 실험은 일반적으로 인과 관계 또는 인과 관계 평가 그것은 당신이 혼란을 제어 할 수 있기 때문입니다

무작위 반면에, 그것은하기가 어려울 수 있습니다 그러므로 신중하고 신중해야합니다 실험을해야하는지 여부와 실제로 수행 할 방법을 고려할 때 그것 데이터 소싱 및 제작 측면에서 내가 이야기하고 싶은 최종 절차가 하나 있습니다

새 데이터 이것은 실험의 한 형태이며 단순히 A / B 테스트라고 불리우며 극단적입니다 웹 세계에서 흔히 볼 수 있습니다 예를 들어, 아마존 닷컴의 스크린 샷을 간신히 움켜 쥐었습니다 홈페이지에서이 다양한 요소를 홈페이지에 올렸습니다

내가이 일을했을 때,이 여자는 실제로 애니메이션 GIF이기 때문에, 그녀는 주위를 움직인다 그 종류가 이상했다 나는 전에 그것을 본 적이 없다 하지만이 문제는 전체 레이아웃, 사물의 구성 방법 및 사물의 위치 결정 방법 결정 Amazon의 A / B 테스트 변형 다음은 작동 방식입니다 웹 페이지의 경우, 어떤 요소가 헤드 라인인지 또는 색이 무엇인지 또는 조직이나 방법이 무엇인지 당신은 무언가를하고 여러 버전을 만들 것입니다, 어쩌면 단지 두 버전 A와 버전 B, 왜 A / B 테스트라고 부릅니까? 그런 다음 사람들이 귀하의 웹 페이지를 방문 할 때 무작위로 한 버전이나 다른 버전을 방문하는 이들에게는 자동으로 소프트웨어를 제공합니다

그런 다음 응답에 대한 응답 속도를 비교합니다 내가 너에게 보여줄거야 둘째 그런 다음 충분한 데이터가 확보되면 최상의 버전을 구현할 수 있습니다 단단한 것을 설정하고 다른 것을 계속하십시오

이제 응답률 측면에서 보면 당신이 볼 수있는 많은 다른 결과들이 있습니다 사람이 얼마나 오래 있는지 볼 수 있습니다 원하는 경우 마우스 추적을 실제로 할 수 있습니다 클릭 연결을 볼 수 있으며, 장바구니 값 또는 포기를 볼 수도 있습니다 가능한 많은 결과

모든 A / B 테스트를 통해 웹 사이트 최적화의 일반적인 개념에 기여합니다 귀하의 웹 사이트를 가능한 한 효과적으로 만드십시오 이제 아이디어는 당신이 많이해야 할 일입니다 계속해서 A / B 테스트를 수행 할 수 있습니다 에서 사실, 한 사람이 A / B 테스트가 실제로 의미하는 것이 항상 테스트

귀엽지 만, 개선이 일정한 과정이라는 생각을 해줍니다 이제 일부 소프트웨어에서 A / B 테스트를 수행하려는 경우 가장 일반적인 선택 사항 중 두 가지는 Optimizely Visual Web Optimizer를 나타내는 VWO 등이 있습니다 자, 많은 다른 것들이 가능하지만, 이것들은 특히 일반적이며 데이터를 얻을 때 통계 가설을 사용하게됩니다 차이를 비교하기위한 테스트 또는 실제로 소프트웨어가 자동으로 수행합니다 그러나 대부분의 소프트웨어 패키지가 테스트를 중단하기 때문에 매개 변수를 조정할 수 있습니다

조금 지나치게 빠르면 정보가 그다지 안정적이지 않습니다 하지만, 합계, 여기에 우리가 A / B 테스트에 대해 말할 수있는 것이 있습니다 이것은 웹 사이트 실험의 한 버전입니다 온라인으로 처리되기 때문에 많은 양의 데이터를 매우 빨리 얻을 수 있습니다 그것은 허용한다

당신은 중요한 결과가 무엇이든 귀하의 웹 사이트 디자인을 최적화 할 수 있습니다 또한 일련의 지속적인 평가, 테스트 및 개발을 통해 이루어질 수 있습니다 최대한 많은 사람들에게 가능한 한 효과적으로 원하는 것을 성취하고 있는지 확인하십시오 가능한 한 사람들 데이터 소싱 측면에서 내가 얘기하고 싶다

다음 단계에 대해 이야기하는 것입니다 아마 가장 중요한 것은 아시다시피 그냥 거기 앉아 나는 당신이 가서 이미 가지고있는 것을 보길 원해 일부 열어보기 데이터 소스 도움이된다면 몇 가지 데이터 공급 업체에 문의하십시오

그리고 그 사람들이주지 않으면 프로젝트를 수행하는 데 필요한 것이 무엇인지, 그리고 새로운 데이터를 만드는 것을 고려하십시오 다시, 아이디어 여기 당신이 필요로하고 얻는 것입니다 자신의 프로젝트에 참여해 주셔서 감사합니다 "데이터 과학 코딩"에 오신 것을 환영합니다 나는 바트 풀슨이고 우리가이 일에서 무엇을 할 것인가? 일련의 비디오를 통해 우리는 데이터 과학의 도구를 약간 살펴볼 것입니다

그래서 저는 여러분이 여러분의 도구를 알기를 권유합니다하지만 아마도 그 도구보다 더 중요 할 것입니다 그들의 적절한 장소를 아는 것입니다 지금, 나는 사람들이 데이터 도구에 대해 이야기하고, 마치 데이터와 같은 것으로 이야기합니다 과학처럼, 그들은 같은 세트였습니다

하지만, 만약 당신이 그것을 단지 실제로는 그렇지 않습니다 데이터 도구는 데이터 과학의 한 요소입니다 데이터 과학은 사용하는 도구보다 훨씬 많습니다 그것은 물건을 포함한다 비즈니스 지식처럼, 의미 생성과 해석을 포함합니다

사회적인 요소가 포함되어 있으므로 관련 도구 만이 아닙니다 즉, 적어도 몇 가지 도구가 필요하므로 몇 가지 사항에 대해 이야기하겠습니다 그것이 당신을 위해 잘 작동한다면 당신은 데이터 과학에서 사용할 수 있습니다 시작하는 측면에서, 기본적인 것들 # 1은 스프레드 시트이며, 보편적 인 데이터 도구입니다

그들이 데이터 과학에서 어떻게 중요한 역할을하는지 # 2는 Tableau라고하는 시각화 프로그램입니다 무료 인 Tableau 공개가 있으며 Tableau 데스크톱이 있으며 거기에는 뭔가 Tableau 서버라고 Tableau는 데이터 시각화를위한 멋진 프로그램입니다 저는 대부분의 사람들이 필요한 것을 대다수 제공한다고 확신합니다

과 도구는 아니지만 웹 데이터에 사용되는 형식에 대해 이야기해야합니다 당신은 많은 데이터 과학 작업을 할 때 그것을 탐색 할 수 있어야합니다 그럼 우리는 데이터 과학을위한 필수 도구에 대해 이야기 할 수 있습니다 여기에는 프로그래밍 특히 데이터를위한 언어 R은 범용 프로그래밍 언어 파이썬은 데이터에 잘 적응 해왔다 데이터베이스 언어 속편이나 구조화 된 쿼리 언어 용 SQL

그 이상으로 가고 싶다면 당신이 할 수있는 다른 것들 범용 프로그래밍 언어 C, C ++, Java는 데이터 과학 및 분류의 기초를 형성하기 위해 매우 자주 사용됩니다 높은 수준의 생산 코드는 그것들에도 의존 할 것입니다 명령이 있습니다 라인 인터페이스 언어 인 배시 (Bash)는 매우 일반적으로 조작하기위한 매우 빠른 도구입니다 데이터

그리고 정규 표현식이나 Regex와 같은 종류의 와일드 카드가 슈퍼 커밋됩니다 우리는이 모든 것을 별도의 과목으로 말할 것입니다 그러나 모든 도구를 고려할 때 당신이 사용할 수있는, 80/20 규칙을 잊지 마세요 파레토 원리라고도합니다 그리고 여기 아이디어는 당신이 작은 숫자에서 당신의 벅에 대한 많은 강타를 얻을 것입니다 사물의

여기에 약간의 샘플 그래프를 보여 드리겠습니다 네가 10을 가지고 있다고 상상해 보라 다른 도구와 우리는 A부터 B까지 그들을 부를 것입니다 A는 당신을 위해 많은 일을합니다 B는 조금 않습니다

더 작고 가볍게 테이퍼가되어, 당신은 조금만 할 수있는 많은 툴을 가지고 있습니다 당신이 필요로하는 것들을 이제 개별 효과를 살펴 보지 않고 누적 효과 당신은 도구의 조합으로 얼마나 많은 것을 성취 할 수 있습니까? 도구가 시작된 60 %의 첫 번째 항목과 그 다음에는 20 % B에서 그리고 그것은 올라가고 C와 D에 추가하고 당신은 조금 더 작아지고, 더 작은 조각 그리고 끝날 때까지, 당신은 효과의 100 %를 얻었습니다 열 가지 도구를 결합하여 이것에 대해 중요한 것은, 당신은 가야한다는 것입니다 두 번째 도구, 즉 10 개 중 2 개는 B이고 도구의 20 %는이 도구에서 만들어집니다

예를 들어, 출력의 80 %를 얻었습니다 그래서, 도구의 20 %에서 출력의 80 % 그것은 파레토 원리의 가상의 예입니다 그러나 실생활에서 뭔가를하는 경향이 있다는 것을 알았습니다 그 정도는 좋아 그래서, 모든 것을 반드시 배울 필요는 없습니다

모든 일에서 모든 것을하는 법을 배울 필요가 없습니다 대신에 가장 생산적이며 특히 생산성이 가장 뛰어난 도구입니다 그래서, 요약하자면, 이 세 가지를 말하십시오 숫자 1, 코딩 기능 또는 단순히 데이터 조작 기능 프로그램 및 컴퓨터 코딩은 중요하지만 데이터 과학은 그것에 사용 된 도구 모음

그리고 마침내, 당신이 무엇을 결정하려고하는지 사용할 도구 및 배우고 배우는 방법, 일하는 방법, 80/20을 기억하십시오 작은 도구 세트로 많은 것을 얻을 수 있습니다 따라서 앞으로 갈 일에 집중하십시오 자신의 데이터 과학 프로젝트를 수행 할 때 가장 유용 할 수 있습니다 우리가 시작하자마자 코딩 및 데이터 과학에 대한 토론을 통해 실제로 코딩이 아닌 무언가로 시작하고 싶습니다

이미 만들어진 응용 프로그램이나 프로그램에 대해 이야기하고 싶습니다 데이터 조작 그리고 우리는 가장 기본적인 스프레드 시트부터 시작하려고합니다 우리는 Excel의 행과 열과 셀을 수행 할 것입니다 그 이유는 스프레드 시트가 필요합니다

자, 당신은 너 자신에게 말할지도 모른다 내가 자랑스러워하는 것을 알아, 내 큰 세트의 서버에서 일하고있어, 멋진 일이있어 "하지만, 당신은 사람들을 너무 좋아합니다 스프레드 시트도 필요합니다 그 이유

가장 중요한 점은 스프레드 시트가 데이터 과학에 적합한 도구가 될 수 있다는 것입니다 많은 상황; 거기에는 몇 가지 이유가 있습니다 스프레드 시트 1 위 어디서나 볼 수 있으며 유비쿼터스이며 전 세계 10 억 대의 컴퓨터에 설치됩니다 모두가 사용합니다 스프레드 시트에는 다른 어떤 것보다 많은 데이터 세트가있을 것입니다

그래서 매우 일반적인 형식입니다 중요한 것은 아마도 클라이언트의 형식 일 것입니다 많이 귀하의 고객 중 자신의 데이터에 대한 스프레드 시트를 사용하려고합니다 나는 10 억을 가지고 일했다 모든 데이터를 스프레드 시트에 보관하는 달러 기업 그래서, 함께 일할 때 그것들을 조작하는 방법과 그 방법을 알아야합니다

또한, 스프레드 시트는 특히 csv입니다 쉼표로 구분 된 값 파일입니다 링거 프랑카 또는 데이터 전송을위한 보편적 인 교환 형식을 사용하면 한 프로그램에서 다른 프로그램으로 가져 가라 그리고 진실하게, 많은 상황에서 그들은 정말 사용하기 쉽습니다 이것에 대한 두 번째 의견을 원한다면이 부분을 살펴 보겠습니다

순위 데이터 마이닝 전문가를 대상으로 한 설문 조사는 KDnuggets 데이터 마이닝 조사이며 자신의 작업에서 가장 많이 사용하는 도구입니다 그리고 이것을보십시오 : Excel은 5 위입니다 그 목록은 사실 흥미로운 점은 Hadoop과 Spark보다 두 배 더 뛰어나다는 것입니다 주요한 큰 데이터 멋진 도구들

그리고 Excel은 실제로 Excel에서 자존심을 가지고 있습니다 데이터 분석가를위한 툴킷 자, 우리는 일종의 저급 기술 종단을 분류 할 것이기 때문에, 스프레드 시트로 할 수있는 일에 대해 이야기 해 봅시다 1 위, 그들은 데이터 검색에 정말 좋습니다 당신은 정말로 당신 앞에있는 모든 데이터를 보게됩니다 R이나 Python과 같은 일을하는 경우에는 사실이 아닙니다

그들은 정말로 좋습니다 데이터 정렬,이 열을 기준으로 정렬 한 다음이 열을 기준으로 정렬합니다 그들은 정말 좋다 기둥과 셀을 재배치하고 물건을 옮기는 것 그들은 찾기 쉽고 바꾸고 보면서 무슨 일이 일어나면 제대로 작동하는지 알 수 있습니다

더 많은 용도로 사용됩니다 특히 포맷팅, 특히 조건부 서식에 좋습니다 그들은 데이터를 전치시키기에 좋다 행과 열을 전환하면 정말 쉽습니다 트래킹에 유용합니다

변경 이제 GitHub를 사용하고있는 멋진 데이터 과학자라면 사실입니다 하지만 스프레드 시트의 모든 사람들과 추적 변경 사항은 훌륭한 방법입니다 그것을하기 위해 피벗 테이블을 만들면 매우 실용적인 방식으로 데이터를 탐색 할 수 있습니다

매우 직관적 인 방법으로 그리고 그들은 또한 결과를 정리하는 데 정말로 좋습니다 소비를 위해 그러나 스프레드 시트로 작업 할 때 한 가지가 있습니다 당신은 알고 있어야합니다 : 그것들은 실제로 융통성이 있습니다,하지만 융통성은 그것의 문제가 될 수 있습니다 당신이 데이터 과학에서 일할 때, 당신은 특별히 뭔가를 염려하고 싶습니다

Tidy Data라고 부릅니다 그것은 내가 잘 알려진 개발자 인 Hadley Wickham으로부터 빌린 용어입니다 R 세계에서 깔끔한 데이터는 데이터를 전송하고 잘 작동하도록하기위한 것입니다 몇 가지가있다

스프레드 시트의 고유 한 유연성을 취소하는 규칙입니다 하나, 무엇 당신은 칼럼이 변수와 같은 일을하는 것입니다 열, 변수는 동일한 것입니다 그리고 행은 동일합니다 사례

파일 당 한 장의 시트가 있고, 한 레벨의 측정, 말하자면, 개인, 조직, 파일 당 상태 다시 말하지만, 이것은 스프레드 시트에 고유 한 유연성을 제공하지만 실제로 데이터 이동이 쉽습니다 한 프로그램에서 다른 프로그램으로 이 모든 것이 어떻게 작동하는지 보여 드리겠습니다 이것을 Excel에서 시도 할 수 있습니다 이 과정의 파일을 다운로드 한 경우이 스프레드 시트를 열면됩니다

Excel로 가서 어떻게 작동하는지 보여 드리겠습니다 따라서이 스프레드 시트를 열면 무엇을 당신은 내가 만든 모든 가상의 데이터를 얻습니다하지만 시간이 지남에 따라 판매를 보여주고 있습니다 야구장에서 물건을 파는 경우와 같이 두 곳의 여러 제품을 그리고 이것이 스프레드 시트가 나타나는 방식입니다 빈 행과 열이 있습니다

사람이 그것을 쉽게 처리 할 수 ​​있도록 배치 된 물건 그리고 우리는 여기에 합계가 표시됩니다 수식이 함께 표시됩니다 그리고 괜찮습니다 그것을 만든 사람에게도 좋습니다

그리고 나서 그것은 한 달 동안입니다 한달에 한 달 씩 또 다른 달이있다 모두 2014 년 1/4 분기입니다 여기에 헤더가 있고 조건부가 있습니다 서식 지정 및 변경 및 우리가 바닥에 올 경우, 우리는 매우 바쁜 라인 그래픽을 가지고있다

결국로드; 그것은 좋은 그래픽이 아닙니다 그러나, 당신이 할 것 인 것과 유사합니다 자주 찾는다 그래서, 이것은 클라이언트 자신의 개인용으로 유용 할 수 있지만 이것을 사용하면 R이나 파이썬으로 먹을 수 없으며, 그것은 막히게 될 것이고 무엇이 무엇인지 모른다 그것과 관련있다

따라서 데이터를 정리하는 과정을 거쳐야합니다 그리고 뭐 이 작업은 일부 작업을 취소합니다 예를 들어, 여기에 거의 잡동사니 그릇 여기에는 날짜에 대한 단일 열, 날짜에 대한 단일 열, 사이트, 그래서 우리는 두 개의 위치 A와 B가 있고, 우리는 6 개의 다른 판매되는 물건과 매일 판매되는 물건의 수 이제 상황에 따라 예를 들어, 시간과 같이 데이터를 정확히 레이아웃하려는 경우 시리즈와 같이, 당신은 이것과 모호하게 비슷한 것을 할 것입니다

그러나, 진실한 정돈 된 재료를 위해, 우리는 더 이상 붕괴 될 것입니다 여기에 깔끔한 데이터를 보냅시다 그리고 지금 나는 완료되었습니다, 나는 판매되는 품목이 무엇인지 말하는 새로운 칼럼을 만들었습니다 과 그래서, 이것이 의미하는 바는 우리가 지금 정말로 긴 데이터 세트를 가지고 있다는 것입니다 천 줄이 넘었습니다

여기에 다시 올라와 하지만, 그게 당신을 보여줍니다 이제는 한 프로그램에서 다른 프로그램으로 가져 오기가 쉬운 형식으로되어 있습니다 그것들을 깔끔하게 만들고 다시 조작 할 수는 있지만 일단 그것들에 도달하면 원하는대로하십시오 여기 몇 줄에 우리의 작은 발표를 요약 해 보겠습니다

번호 하나, 누가 상관없이 데이터 과학 분야에서 무엇을하고 있더라도 스프레드 시트가 필요합니다 그리고 그 이유는 그 이유는 스프레드 시트가 종종 데이터 과학에 적합한 도구이기 때문입니다 한 가지만 간직하십시오 그러나 당신이 한 언어에서 다른 언어로 앞뒤로 움직이는 것처럼, 깔끔한 데이터 나 올바른 형식의 데이터는 데이터를 분석 프로그래머 언어 "코딩 및 데이터 과학"을 진행하면서 특히 사용할 수있는 응용 프로그램은 나를 위해 눈에 띄는 응용 프로그램입니다

다른 무엇보다 중요한 것은 Tableau와 Tableau Public입니다 너라면 이것들에 익숙하지 않은 것은 시각화 프로그램입니다 여기에있는 아이디어는 데이터, 가장 중요한 일은 먼저 자신이 가지고있는 것을보고 보는 것입니다 거기서 그걸로 일해라 사실 많은 조직의 경우 Tableau 그들이 정말로 필요로하는 모든 것일지도 모릅니다

필요로하는 통찰력을 그들에게 줄 것이다 데이터로 건설적으로 작업 할 수 있습니다 이제 tableaucom으로 간략히 살펴 보겠습니다 Tableau에는 몇 가지 다른 버전이 있습니다

바로 여기 Tableau Desktop이 있습니다 Tableau Server 등이 있으며 이들은 Tableau의 유료 버전입니다 그들은 실제로 비영리 조직에서 일하지 않는 한 많은 돈을 벌어 들일 수 있습니다 무료로 어느 것이 아름다운 것입니다

그러나 우리가 일반적으로 찾고있는 것은 유료 버전이지만 Tableau Public이라고하는 것을 찾고 있습니다 네가 들어 오면 여기에 가서 제품에 가서 우리는이 3 개의 유료 제품을 Tableau Public으로 가져 왔습니다 그것을 클릭하면이 페이지로 이동합니다 publictableau

com입니다 그리고 이것은 하나는 우리가 원하는 것을 가지고 있습니다 하나의 주요 경고가있는 Tableau의 무료 버전입니다 파일을 컴퓨터에 로컬로 저장하면 파일을 열지 못했습니다 대신, 그것들을 공개 형식으로 웹에 저장합니다

따라서 개인 정보를 기꺼이 거래하고자한다면 데이터 시각화를위한 대단히 강력한 응용 프로그램을 얻을 수 있습니다 그건 잡을거야 많은 사람들이 데스크톱 버전으로 많은 돈을 기꺼이 지불해야하는 이유입니다 또한 비영리 단체에서 일하면 무료로 데스크톱 버전을 사용할 수 있습니다 그러나, Tableau Public에서 일하는 방식을 알려 드리겠습니다

그래서, 그것은 당신은 개인적으로 일할 수 있습니다 가장 먼저하고 싶은 것은 다운로드하려는 것입니다 그래서, 당신은 당신의 이메일 주소를 넣었습니다 당신이 무엇인지 알 것입니다 에

꽤 큰 다운로드입니다 일단 다운로드가 완료되면 설치하고 열 수 있습니다 응용 프로그램을 그리고 여기 나는 Tableau Public에 있습니다, 바로 여기, 이것은 빈 버전입니다 그런데 온라인에서 물건을 저장하려면 Tableau 계정을 만들어야합니다

그것을보기 위해 나는 그 모습을 보여줄 것이다 그러나, 당신은 공란으로 제시됩니다 바로 여기에서해야 할 일은 데이터를 가져와야한다는 것입니다 Excel 파일을 가져 오겠습니다

자, 코스 파일을 다운로드 한 경우, 이 바로 여기에 DS03_2_2_TableauPublicexcelxlsx가 있음을 알 수 있습니다 에서 사실,이 동영상의 첫 번째 동영상에서 스프레드 시트에 대해 이야기 할 때 사용한 항목입니다 코스

그 중 하나를 골라서 열어 보겠습니다 그리고 많은 프로그램들은 그것은 모든 워크 시트와 모든 기이함을 가지고 있기 때문에 Excel을 가져 오는 것과 같습니다 이걸로 더 잘 작동하지만, 내가 할 일은, 나는 깔끔하게 정리할 것입니다 데이터 그건 그렇고, 당신은 그것이 알파벳 순서로 여기에 넣어 것을 참조하십시오

내가 갈거야 깔끔한 데이터와 나는 그것이 내가 원하는 하나임을 알리기 위해 그것을 끌어 올 것이다 이제는 데이터 세트의 버전과 함께 여기에서 할 수 있습니다 이름을 바꿀 수 있습니다 빈 그룹을 만들 수 있습니다

여기서 할 수있는 일 나는이 특별한 것을 가지고 아주 아주 빠르게 뭔가를 할 것이다 하나 이제 데이터 세트를 얻었습니다 지금 제가 할 일은 제가 갈 것입니다

워크 시트에 그것이 실제로 물건을 만드는 곳입니다 취소하고 워크 시트로 이동하십시오 하나 괜찮아

이것은 드래그 앤 드롭 인터페이스입니다 그래서 우리가 할 일은 우리가하는 일입니다 우리가 그래픽을 만들고 싶어하는 정보의 조각들을 끌어낼 것입니다 거대한 여기 유연성 아주 기본적인 두 가지 것을 보여 드리겠습니다

나는 다음을 보게 될 것이다 내 가상의 야구장의 판매 그래서, 여기서 판매를 할거에요 우리가 측정하려고하는 분야로 그것을 넣을 것입니다 괜찮아

그리고 보시다시피 여기가 우리 총 판매량입니다 우리는 항목별로 나누기로하고 시각 그럼 여기서 물건을 가져 가자 너는 그걸 여기에 끌 수있어 아니면 넣어 줄 수있어

바로 여기에 줄을 서십시오 그것들은 내 행이 될 것이고 우리가 얼마나 많이 팔렸 을까? 각 항목의 합계 좋아요, 정말 쉽습니다 그리고 나서 데이트하자 그것을 여기 저기에 놓아 가로 지르십시오

자, 기본적으로 그것은 해마다 그것을하고 있습니다 그러고 싶지는 않아요, 나는 3 개월 동안의 데이터를 갖고 싶습니다 그래서 내가 할 수있는 것은, 할 수있다 여기를 클릭하면 다른 시간대를 선택할 수 있습니다 나는 분기에 갈 수 있지만 그게 단 1 분기의 데이터 만 가지고 있기 때문에 도움이되지 않을 것입니다

3 개월입니다 나는 일주일에 내려갈거야 사실, 날 보내 줘 내가 하루를 보았다면, 당신은 그것을 본다 엄청나게 복잡해 지므로 좋지 않습니다

그래서 나는 일주일에 백업 할 것입니다 과 거기에 많은 숫자가 있지만, 원하는 것은 그래프입니다 그래서, 그것을 얻으려면, 나는 여기에 와서 이것을 클릭하고 그래프를 원한다고 말하십시오 그래서 우리는 잃어버린 물건을 제외하고 정보를 보는 것 그래서, 나는 물건을 가져 와서 돌려 놓을거야

이 그래프를 보면 데이터의 행이라고 말할 수 있습니다 이제는 판매 행이 있습니다 각 항목에 대해 일주일에 한 번씩 훌륭합니다 나는 퍼팅으로 한 번 더 부셔 먹고 싶다 사이트에서 판매 한 장소

그래서 나는 그것을 붙잡을 것이고 나는 그것을 넣을 것이다 바로 여기 그리고 지금 당신은 내가 판매 된 품목에 의해 세분화 된 것을 볼 수 있습니다 다른 사이트 나는 그 사이트에 색칠을 할 것이고, 그 일을하기 위해해야만하는 것은, 나는 사이트를 움켜 잡고 색깔 위로 끌어 올 것입니다

이제 저는 두 가지 색상이 있습니다 사이트 그리고 이로 인해 무슨 일이 일어나는지 쉽게 알 수 있습니다 사실, 다른 멋진 것들을 할 수 있습니다 내가해야 할 일 중 하나가 분석에 대한 것입니다

모든 것을 통해 평균적인 선을 긋기 위해 말할 수 있습니다 따라서 여기를 드래그 해 보겠습니다 이제 각 라인의 평균값을 구합니다 좋습니다 예측도 할 수 있습니다

나를 시켜줘 여기에 약간의 예측을하십시오 나는 이것을 끌고 넘어갈 수 있다면 이리 나는 이것을 잠시 빠져 나갈 것이다 자, 다음에 대한 예측이 있습니다

몇 주, 그리고 그것은 정말로 편리하고 빠르며 쉬운 일입니다 그리고 다시, 실제로 필요한 조직 일 수 있습니다 그래서, 내가 너에게 보여줄거야 여기 Tableau의 절대적인 기본 동작은 놀라운 범위를 수행 할 수있게 해줍니다 데이터를 조작하고 대화 형 대시 보드를 만들 수 있습니다

저기있다 우리는 그것을 다른 코스에서 보여줄 것입니다 그러나 지금 당장은 당신에게 보여주고 싶습니다 Tableau Public에 관한 한 마지막으로 파일을 저장하는 중입니다 그래서 지금, 내가 여기 올 때

그것을 저장하면 Tableau Public에 로그인하도록 요청할 것입니다 자, 로그인하고 이 비디오를 저장하는 방법을 묻습니다 우리가 간다 저장을 누르십시오 그리고 나서 웹 브라우저가 열리고 이미 내 계정에 로그인되어 있기 때문에, 여기 내 계정과 내 프로필을 참조하십시오

다음은 내가 만든 페이지입니다 그리고 모든 것이 있습니다 내가 필요한 곳 몇 가지 세부 사항 만 편집 할 것입니다 예를 들어, 나는 그 이름 그대로 떠날거야

나는 거기에 더 많은 설명을 넣을 수있다 나는 원했다 사람들이 통합 문서 및 해당 데이터를 다운로드하도록 허용 할 수 있습니다 나는 떠날거야 필요한 경우 다운로드 할 수 있습니다

두 개 이상의 탭이있는 경우 다른 시트를 탭으로 표시한다고 말하는 것 저장을 클릭하십시오 내 데이터 세트가 있습니다 또한 온라인으로 게시되어 사람들이 이제 찾을 수 있습니다 그래서 여기에 네가 가진 것이있다

대화 형 시각화를 생성하는 놀라운 도구입니다 드롭 다운으로 만들 수 있습니다 메뉴를 사용하고 항목을 재정렬 할 수 있으며 전체 대시 보드를 만들 수 있습니다 멋지다 정보를 제공하는 방법, 그리고 전에 말했듯이, 나는 어떤 조직 이는 데이터에서 실제로 유용하고 유용한 정보를 얻는 데 필요한만큼 많이 수행 할 수 있습니다

Tableau와 함께 탐구 할 시간을 갖기를 강력히 권장합니다 유료 데스크톱 버전 또는 공개 버전을 사용하고 실제로 어떤 것을 얻을 수 있는지 알아보십시오 데이터 과학 분야에서의 뛰어난 시각적 효과를 제공합니다 많은 사람들에게, "코딩 및 데이터 과학"에 대한 그들의 첫 번째 경험은 응용 프로그램 SPSS에 있습니다 지금, 나는 SPSS를 생각하며, 내 마음에 오는 첫 번째 일은 아이보리 타워에서 일종의 삶이다

이것은 해리포터와 더 비슷하게 보일지라도 그러나 패키지 이름을 생각하면 SPSS는 사회 과학 통계 패키지에서 제공됩니다 비록 IBM에 문의하면 지금은 아무 것도지지하지 않는 것처럼 행동합니다 하지만, 일반적으로 학문적 인 사회 과학 연구 그리고 진실하게, 나는 사회 심리학자이다

SPSS 사용법을 처음부터 배웠습니다 하지만, 그들의 웹 페이지 ibmcom/spss 그걸 입력하면 별칭이됩니다 귀하는 IBM의 주요 웹 페이지로 이동합니다

이제 IBM은 SPSS를 만들지 않았지만 버전을 중심으로 구입했습니다 16, 그리고 그것은 단지 PASW 예측 분석 소프트웨어로 매우 간략하게 알려져 있었으며 간단히 말하면 이제는 SPSS로 돌아 왔습니다 SPSS는 오랜 기간 동안 있었던 곳입니다 SPSS는 데스크톱 프로그램; 그것은 꽤 크고, 많은 일을하며, 매우 강력합니다 많은 학술 연구에 사용됩니다

또한 많은 비즈니스 컨설팅, 관리, 심지어 일부 의학 연구 그리고 SPSS에 관한 한, 스프레드 시트처럼 보입니다 그러나 당신의 인생을 조금 더 쉽게 만들 수있는 드롭 다운 메뉴가 있습니다 당신이 사용할 수있는 프로그래밍 언어 이제 임시 버전을 무료로 얻을 수 있습니다

학생은 싼 버전을 얻을 수 있습니다 그렇지 않으면 SPSS는 많은 돈을 요합니다 하지만, 만약 당신이 그것은 하나의 방법이나 다른, 당신이 그것을 열 때 이것이 어떻게 생겼는지입니다 나는 SPSS 버전 22를 보여 주며, 현재 24에 있습니다 SPSS 버전 관리에 관한 내용 소프트웨어 패키징 이외의 다른 점은 이것들이 포인트 업데이트 일 것입니다

그래서 저는 우리가 23이나 24가 아닌 173에 있어야한다고 생각합니다 당신이 초기의 것들로부터 배우는 것이 작은 것들은 나중에 일어날 것들을 연구 할 것입니다 많은 후진 및 포워드 호환성이 있기 때문에, 나는 거의 이것을 말할 것입니다 버전 나는 실질적으로 중요하지 않다

당신은이 작은 환영 스플래시 화면을 얻을 수 있습니다 당신은 그것을 더 이상 볼 수 없기 때문에 더 이상 그것을 볼 수 없습니다 나는 여기서 취소 할 것입니다 그리고 이것이 우리의 주요 인터페이스입니다 그것은 스프레드 시트와 매우 흡사합니다

차이점은, 변수 정보를보기위한 별도의 창을 가지고 있으며, 별도의 창이 있습니다 출력을 위해, 그리고 Syntax라고 불리는 것을 위해 선택적인 것 하지만 이걸 어떻게 보여 드릴까요? 먼저 데이터 세트를 열어 작동합니다 SPSS에는 많은 샘플 데이터 세트가 있지만 그들은 도착하기 쉽지 않고 정말로 숨겨져 있습니다 예를 들어 내 Mac에서는 나는 그들이있는 곳으로 간다

Mac에서 나는 파인더에 가고, Mac, 응용 프로그램, IBM의 폴더, SPSS, 통계, 버전 번호, 샘플까지 나는 영어로 된 것들을 원한다고 말하고 나서 그것들을 가져온다sav 파일은 실제 데이터 파일입니다 여기에 다른 종류가 있으므로 sav는 다른 파일입니다

파일의 종류와 계획 분석에 대해 다른 점이 있습니다 그래서, 거기에있다 그것의 버전 여기서 "시장 가치 sav"라는 파일을 열어 보겠습니다

데이터는 SPSS 형식으로 설정됩니다 그리고 그걸 가지고 있지 않으면 다른 것을 열 수 있습니다 지금은별로 중요하지 않습니다 그건 그렇고, 눈치 채지 못했을 경우 SPSS는 열릴 때 정말 천천히 그것은 또한 버전 24 임에도 불구하고 친절합니다

버그와 충돌의 따라서 SPSS와 함께 일할 때 절약의 습관을 갖기를 원합니다 끊임없이 당신의 일 또한 프로그램을 열 때가 참을성도 있습니다 그래서, 여기 주소 및 하우스 값을 표시하는 데이터 세트이며, 정보는 평방 피트입니다

이게 진짜 정보인지는 모르겠지만, 나에게 인위적으로 보입니다 그러나 SPSS를 사용하면 당신은 포인트 앤 클릭 (point and click) 분석을합니다 이것은 많은 일들에 대해 드문 것입니다 그래서, 나는 갈거야 예를 들어, 그래프를 만들겠다고 말하려고합니다

나는 만들거야 A- 저는 주택 가격의 히스토그램을 얻기 위해 레거시 대화라는 것을 사용할 것입니다 그래서 간단히 값을 클릭합니다 바로 저기에 넣으십시오 정상 곡선을 맨 위에 놓을 것입니다

확인을 클릭하십시오 이것은 새로운 창을 열 것입니다, 그리고 그것은 현미경 적으로 그것의 버전, 그래서 나는 그것을 더 크게 만들 예정입니다 출력 창입니다이 창은 별도입니다 창 옆에 탐색 창이 있습니다

데이터가 어디서 왔는지 알려줍니다 여기에서 명령을 저장하면 기본 히스토그램이 있습니다 그래서, 우리는 대부분의 집이 125,000 달러 주위에 있었음을 알았습니다 그리고 나서 그들은 적어도 400,000 달러 평균은 256,000 달러이고 표준 편차는 약 8 만 달러입니다

데이터 세트의 94 개 주택입니다 좋아, 훌륭해 내가 할 수있는 다른 일은 내가 원한다면 몇 가지 분석을하기 위해 데이터로 돌아가 보겠습니다 예를 들어, 나는 할 수있다 분석을 위해 여기에 와서 내가 설명 할 수 있고 실제로 나는 여기에 하나를 할 것입니다

탐색하십시오 구매 가격을 받아서 바로 여기에 넣으겠습니다 그냥 기본적으로 무리를 얻을 나는 괜찮을거야 그리고 출력으로 돌아갑니다

창문 다시 한번 작게 만들었습니다 그리고 이제, 당신은 내 차트 아래에 있습니다 저는 이제 테이블을 가지고 있습니다 나는 많은 정보를 가지고있다

줄기와 잎 줄거리, 박스 줄거리, 위대한 이상 치를 검사하는 방법 그래서 이것은 물건을 저장하는 매우 편리한 방법입니다 이 정보를 이미지로 내보낼 수 있으며 전체 파일을 HTML로 내보낼 수 있습니다 당신은 pdf 또는 PowerPoint로 그것을 할 수있다 여기에는 많은 옵션이 있으며 사용자 정의 할 수 있습니다

여기에있는 모든 것들 자, 너를 만드는 또 하나의 것을 보여주고 싶다 인생은 SPSS에서 훨씬 쉬워졌습니다 이 명령을 내려 놓는 것이 바로 여기에 있습니다 그것은 실제로 그래프를 말하고 히스토그램을 말하며 정상은 값과 같습니다

그리고 여기 아래로, 이 작은 명령을 바로 여기 있습니다 대부분의 사람들은 자신의 작업을 저장하는 방법을 모릅니다 SPSS에서, 그리고 그것은 당신이 단지 매번 다시 그것을해야하는 것과 같은 것입니다 그러나 이것을하는 아주 간단한 방법이 있습니다 내가 할 일은 내가 열어 볼거야

Syntax 파일이라고 불리는 것 나는 새로운 것으로 갈거야, 문맥 그리고 이것은 그냥 비어 있습니다 창은 프로그래밍 창, 코드를 저장하기위한 것입니다 그리고 저를 분석으로 돌아 가게하겠습니다

나는 잠시 전에했다 나는 분석에 돌아갈 것이고 나는 여전히 여기에 바로 갈 수있다 기술 탐구하면 내 정보가 아직 남아 있습니다 그리고 여기서 일어나는 일은 내가 비록 드롭 다운 메뉴와 포인트 앤 클릭으로이 작업을하면 붙여 넣기가 수행됩니다 그 명령을 생성하는 코드를 취하여이 구문 창에 저장합니다

과 이것은 단지 텍스트 파일입니다 그것은 spss로 저장하지만, 열 수있는 텍스트 파일입니다 아무것도 그리고 이것에 대해 아름다운 점은 복사하여 붙여 넣기가 정말 쉽다는 것입니다

이것을 Word로 가져 와서 검색하고 바꿀 수도 있습니다 정말 쉽습니다 분석을 복제합니다 그래서 SPSS는 좋은 프로그램입니다 그러나, 당신이 사용하기 전까지는 구문 당신은 그것의 진정한 힘을 알지 못한다

그것을 작동시키는 방법 어쨌든, 이것은 SPSS에 대한 간단한 소개입니다 내가 원했던 모든 것 스프레드 시트처럼 보이는 매우 일반적인 프로그램이라고 말하지만, 당신에게 더 많은 힘과 옵션을 제공하고 드롭 다운 메뉴와 텍스트 기반 구문을 모두 사용할 수 있습니다 명령을 사용하여 작업을 자동화하고 나중에 복제하는 것이 더 쉽습니다 "코딩 및 데이터 과학"에 대한 또 하나의 응용 프로그램을 살펴보고 싶습니다

JASP 이것은 새로운 응용 프로그램으로 많은 사람들에게 친숙하지 않고 여전히 베타 버전입니다 그러나 놀라운 약속이 있습니다 기본적으로 SPSS의 무료 버전이라고 생각할 수 있습니다 우리는 자유로운 것을 좋아합니다

하지만 JASP는 무료가 아니라 오픈 소스이기도합니다 직관적이며 분석을 복제 할 수 있으며 베이지안 방식을 포함합니다 그래서, 모두 함께 가져 가세요, 우리는 꽤 행복합니다 우리는 기쁨으로 뛰고 있습니다 그래서, 우리가 계속 전진하기 전에, 너는 너 자신에게 묻고 있을지도 모른다

JASP, 그게 뭐야? 음, 창작자 단호한 통계 프로그램 (Just Another Statistics Program)을지지한다는 것을 부인했다 우리는 JASP라고 부르며 매우 행복하게 사용할 것입니다 너는 얻을 수있다 jasp-statsorg로 이동하여 그리고 지금 당장 살펴 봅시다

JASP는 새로운 프로그램, 그들은 SPSS에 대한 저지방 대안을 말하지만, 정말 훌륭한 방법입니다 통계를하는 중 당신은 당신의 플랫폼을 공급함으로써 그것을 다운로드하기를 원할 것입니다; 그것은 심지어 Linux 형식으로 제공됩니다 그리고 다시 베타 버전이므로 게시 된 상태로 유지하십시오 정기적으로 업데이트 중입니다 Mac 사용자라면 Xquartz를 사용해야 할 것입니다

설치하기 쉬운 것이고 많은 일이 더 잘됩니다 그리고 그것은 훌륭합니다 분석 할 수있는 방법 JASP를 열면 다음과 같이 보일 것입니다 꽤 예쁘다

빈 인터페이스이지만, 그걸로가는 것은 정말 쉽습니다 그래서 예를 들어, 당신은 올 수 있습니다 여기에 파일을 저장하고 예제 데이터 세트를 선택할 수도 있습니다 예를 들어 여기에 하나는 빅 5라는 성격 요소입니다 여기에 데이터가 있습니다

정말 쉽습니다 함께 일해 잠깐 여기 이것을 넘기도록하겠습니다 그래서 다섯 가지 변수가 있습니다 그리고 이것들에 대한 몇 가지 빠른 분석을 해봅시다

예를 들어, 우리는 설명을 원합니다 우리는 몇 가지 변수를 선택할 수 있습니다 이제 SPSS에 익숙하다면 레이아웃이 매우 느껴집니다 훨씬 똑같은데 결과물은 똑같아 보입니다 있잖아, 내가해야 할 일은 선택하는거야

내가 원하는 것은 즉시 여기에 나타납니다 그런 다음 추가 통계를 선택할 수 있습니다 코어 타일을 얻을 수 있습니다 중간 값을 얻을 수 있습니다 그리고 당신은 플롯을 선택할 수 있습니다

어떤 음모를 꾸미 죠 당신이해야 할 일은 그것을 클릭하면 나타나는 것입니다 그리고 그것은 정말 아름다운 것입니다 이러한 것들을 조금 수정할 수 있습니다 예를 들어, 플롯 포인트를 사용할 수 있습니다

내가 그것을 아래로 드래그 할 수 있는지 보자 그리고 내가 그것을 작게 만들면 5 개의 그림을 볼 수있다 나는 그걸 조금 지나치게 멀리 갔다 어쨌든 여기에서 많은 일을 할 수 있습니다 그리고 나는 할 수있다

이것을 숨기면, 나는 그것을 무너 뜨릴 수 있고 나는 계속해서 다른 분석을 할 수있다 자, 정말로 무엇이 깔끔하지만 내가 탐색 할 때 그렇습니다 그래서 방금 결과의 빈 영역을 클릭했습니다 페이지에서 우리는 여기에있는 데이터로 되돌아갑니다 하지만이 테이블 중 하나를 클릭하면 하나는 바로 여기, 그것은 그것을 생산하는 명령을 즉시 가져오고 나는 단지 수정할 수 있습니다

내가 원한다면 좀 더 나는 비뚤어진 것과 첨예 한 것을 원한다고 말한다 그들은 거기에있다 그것은 놀라운 일을 한 다음 여기로 돌아올 수 있습니다 나는 그것을 클릭하면됩니다

플롯에 올 수 있고 그것들을 확장 할 수 있습니다 클릭하면 명령이 나타납니다 그 (것)들은 그들을 만들었다 그것은 일을하는 데 놀랍도록 쉽고 직관적 인 방법입니다 이제, 또 다른 JASP에 관한 정말 좋은 점은 정보를 온라인으로 공유 할 수 있다는 것입니다

osfio라는 프로그램을 통해 그것은 열린 과학 재단을 의미합니다 그것의 웹 주소 osfio 그래서, 그것이 무엇인지 잠깐 살펴 보겠습니다

여기 오픈 과학 프레임 워크 웹 사이트 및 멋진 서비스, 무료이며 지원하도록 설계되었습니다 공개적이고, 투명하며, 접근 가능하고, 책임감 있고, 공동 연구를 할 수는 없습니다 그것에 대해 충분한 좋은 것을 말하십시오 이것에 관해 깔끔한 것은 일단 OSF에 가입하면 자신의 영역을 만들 수 있고 내 자신의 영역을 가질 수 있습니다 이제 그 영역으로 갈 것입니다

그래서, 예를 들어, 오픈 사이언스 프레임 워크의 datalab 페이지가 있습니다 내가 한 일은 이 JASP 분석 버전을 만들고 여기에 저장했습니다 사실, 열어 보겠습니다 JASP에서의 JASP 분석과 osf에서의 모습을 보여 드리겠습니다 먼저, JASP로 돌아 가라

우리가 여기 왔을 때 파일을보고 컴퓨터를 클릭하면됩니다 이 파일을 바탕 화면에 저장했습니다 데스크톱을 클릭하면 다운로드 할 수 있었을 것입니다 이 모든 다른 파일들, DS03_2_4_JASP를 더블 클릭하면 열 수 있습니다 새 창을 열려고하면 같은 데이터 세트로 작업하고있는 것을 볼 수 있습니다

나는 더 많은 분석을했다 나는이 그래프를 가지고있다 상관 관계와 산점도가 있습니다 이리와, 나는 선형 회귀를했다 그리고 우리는 그것을 클릭하면 볼 수 있습니다

그것뿐만 아니라 옵션을 생산하는 명령 나는 특별한 일을하지 않았다 그,하지만 나는 약간의 자신감 간격을했고 그것을 지정했다 그리고 그것은 정말로 위대하다 이 모든 것을 처리하는 방법

빈 영역을 다시 클릭하면 명령이 표시됩니다 나가서 JASP에서 제 출력물을 얻었습니다 그러나 그것을 저장할 때, 나는 OSF에 저장하는 옵션, 실제로이 웹 페이지 osfio/3t2jg로 이동하면 실제로 내가 수행 한 분석을보고 다운로드 할 수있는 페이지로 갈 수 있어야합니다 한 번 보자

이 페이지입니다 간신히 당신에게 준 주소가 있습니다 당신이 여기에서 볼 수있는 분석은 제가 수행 한 것과 같습니다, 괜찮습니다 그래서 당신이 협력한다면 사람들과 함께 또는 당신이 사람들에게 사물을 보여주고 싶다면, 이것을 할 수있는 훌륭한 방법입니다 모든 것이 바로 그곳에 있습니다

이것은 정적 인 이미지입니다하지만 최고의 사람들은 선택의 여지가 있습니다 원본 파일을 다운로드하여 직접 작업하십시오 당신이 말할 수없는 경우에, 나는 JASP에 대해 열렬히 기대하고있다 여전히 베타 버전으로 성장하고있다

빠르게 SPSS에 대한 무료 오픈 소스 공동 작업으로 실제로 볼 수 있습니다 많은 사람들이 데이터 과학 작업을 훨씬 쉽게 할 수 있다고 생각합니다 나는 JASP를 면밀히 살펴 보길 강력히 권장합니다 "코딩에 대한 토론을 끝내자

및 데이터 과학 "응용 프로그램의 일부로 다른 소프트웨어를 간략히보고 있습니다 선택 그리고 압도적 인 이유가 있습니다 많은 선택 이제는 스프레드 시트와 Tableau, SPSS 및 JASP 외에도 이미 말했듯이, 그 이상이 있습니다

나는 너에게 다양한 범위를 줄 것이다 내가 알고있는 것들과 중요한 것들을 제외 시켰을 것입니다 다른 사람들은 정말로 좋아하지만, 이것들은 공통적 인 선택이고 덜 일반적입니다 하지만 재미있는 것들 번호 하나, 언급하지 않은 것들에 관해서는 SAS입니다

SAS 매우 강력한 분석 프로그램으로 많은 것들에 사용됩니다 그 사실 제가 배운 첫 번째 프로그램이고 다른 한편으로는 종류가 어렵습니다 사용하기에 비싸지 만 흥미로운 몇 가지 대안이 있습니다 SAS SAS University Edition이라고 불리는 프로그램도 있습니다 학생 인 경우 무료입니다

그것이하는 일이 약간 줄어들지 만, 그것이 자유 롭다는 사실입니다 또한 실행됩니다 엄청난 다운로드를하는 가상 머신에서는 SAS를 배우는 좋은 방법입니다 그것이 당신이하고 싶은 무엇인가라면 SAS는 또한 내가 정말 좋아하는 프로그램을 만들었습니다

그렇게 비싼 것은 아니기 때문에 JMP와 그 시각화 소프트웨어라고 불립니다 Tableau를 조금 생각해 봅시다 어떻게 보았습니까? 시각적으로이 작업과 함께 작업하십시오 당신은 물건을 끌 수 있습니다, 그것은 정말 멋진 프로그램입니다 나는 그것을 개인적으로 금지적이라고 생각한다

비싼 근무 분석가들 사이에서 또 다른 매우 일반적인 선택은 Stata와 일부 사람들 Minitab을 사용하십시오 자, 수학적 사람들에게는 MATLAB이 있고 물론 거기에 있습니다 Mathematica 그 자체이지만, 실제로는 프로그램보다는 언어에 가깝습니다 다른쪽에 손, 볼프람; Mathematica를 만든 사람은 우리에게 Wolfram Alpha를주는 사람들이기도합니다

사람들은 iPhone에서 실행할 수 있기 때문에이 통계 응용 프로그램을 생각하지 않습니다 그러나, Wolfram Alpha는 믿을 수 없을만큼 유능하며 특히 프로 계정에 대해 지불하는 경우, 분석, 회귀 모델, 시각화를 포함하여 놀라운 일을 할 수 있습니다 그래서 좀 더 자세히 살펴볼 가치가 있습니다 또한, 필요한 데이터 Wolfram Alpha는 흥미로운 데이터입니다 이제 여러 응용 프로그램 보다 구체적으로 데이터 마이닝에 맞춰 졌으므로 데이터 마이닝을 수행하지 않으려 고합니다

정기적으로, 당신은 알지 못한다 그러나 RapidMiner가 있고 거기에 KNIME와 Orange는 컨트롤 언어이므로 모두 사용하기가 좋습니다 여기서 노트를 스크린으로 드래그하고 라인을 연결하면 어떻게 볼 수 있습니까? 사물들이 지나간다 이 세 가지 모두 무료 또는 무료 버전과 세 가지 그들도 꽤 비슷한 방식으로 작동합니다 기계 학습을위한 BigML도 있습니다

이것은 브라우저 기반이기 때문에 비정상적이며, 서버에서 실행됩니다 무료 버전이 있습니다 전체를 다운로드 할 수는 없지만 BigML을 사용하는 데는 많은 비용이 들지 않으며 매우 친절하고 매우 접근하기 쉬운 프로그램 그렇다면 실제로 설치할 수있는 프로그램 측면에서 자신의 컴퓨터에서 무료로 SOFA 통계를 구할 수 있습니다 통계를 의미합니다

모두를 위해 열려, 그것은 치즈 냄새의 종류의 종류 다 그러나 그것은 좋은 프로그램이다 그리고 나서 1990 년의 웹 페이지는 지난 3 년, 이것은 고생물학의 소프트웨어이고 다른 하나는 손은 매우 일반적인 것들을 수행합니다, 그것은 많은 플랫폼에서 실행되며 정말 강력합니다 물건과 그것은 자유 롭다 그러나 그것은 비교적 알려지지 않다 그리고 비교적 알려지지 않은, 내 마음에 가깝고 소중한 웹 응용 프로그램은 Statcrunch라는 웹 응용 프로그램입니다

하지만 1 년에 6 달러 또는 12 달러의 비용이 들지만, 실제로 저렴합니다 특히 기초 통계와 학습을 위해, 나는 내가 가르치고있는 수업 중 일부에서 사용했다 그리고 만약 당신이 Excel에 깊이 관여하고 있으며 그 환경을 떠나지 못하게된다면, XLSTAT와 같은 추가 기능을 구입할 수 있습니다 XLSTAT는 다양한 통계 기능을 제공합니다 Excel 환경 자체

그것은 선택의 여지가 많고 여기에서 가장 중요한 것입니다 압도 당하지 않는다 선택의 여지가 많지만, 모든 것을 시도 할 필요조차 없습니다 그들의 정말 중요한 질문은 당신과 프로젝트에 가장 적합한 것이 무엇인가하는 것입니다

너는 일하고있어? 그 점에서 고려해야 할 몇 가지 사항이 있습니다 우선 기능성, 실제로 원하는대로하거나 컴퓨터에서 실행하는지 여부 프로그램이 할 수있는 모든 것을 필요로하지는 않습니다 Excel에서 할 수있는 일에 대해 생각할 때 사람들은 아마 사용 가능한 것의 5 %를 사용합니다 두 번째는 사용 편의성입니다 일부 이 프로그램은 다른 프로그램보다 사용하기가 훨씬 쉽습니다

사용하기 쉬운 것들은 좋아하기 때문에 "아니요 프로그램을해야 하니까요 나는 맞춤식 물건이 필요하다 "그러나 나는 사람들이하는 것의 95 %가 필요하지 않다는 것을 내기를 기꺼이한다 어떤 관습

또한 커뮤니티의 존재 끊임없이 일할 때 당신은 문제를 겪고 그것을 해결하고 온라인을 얻을 수있는 방법을 알지 못합니다 답변을 검색하고 거기에 사람들이있는 커뮤니티가 충분합니다 누가 대답을하고 이런 것들을 토론 했습니까? 그것들은 훌륭합니다 이들 중 일부 프로그램은 매우 중요한 공동체이며 일부는 사실상 존재하지 않습니다 그것은 당신에게 얼마나 중요한지를 결정하는 것입니다

그리고 마침내 당연히 거기에 물론 비용 문제입니다 언급 한 많은 프로그램 중 일부는 무료이며 일부는 매우 유용합니다 싸구려, 일부는 프리미엄 모델을 실행하며 그 중 일부는 극도로 비쌉니다 그래서, 누군가 다른 사람이 그것을 지불하지 않으면 당신은 그들을 사지 않습니다 그래서, 이것들은 다양한 프로그램을 보려고 할 때 명심하고 싶은 것들

또한, 이것을 언급하자 80/20 규칙을 잊지 마세요 너는 할 수있을거야 적은 수의 도구, 하나 또는 두 개의 도구로 수행해야하는 대부분의 작업, 어쩌면 세 가지가 아마도 당신이 필요로하는 모든 것 일 것입니다 그래서, 당신은 가능한 모든 도구의 범위

필요한 것을 찾아 내고 편한 것을 찾으십시오 당신이 할 수있는 한 많은 가치를 추출하려고 노력합니다 따라서, 요약하면 코딩 및 데이터 과학을위한 사용 가능한 응용 프로그램에 대한 토론 응용 프로그램을 먼저 기억하십시오 도구이기 때문에 운전하지 않고 사용합니다 그리고 당신의 목표는 무엇을 선택하게하는지입니다

귀하의 응용 프로그램과 당신이 그것을하는 방식 그리고 가장 중요한 것은 당신을 위해 일하는 것이 기억에 남는다면, 당신이 편안하지 않다면 다른 누군가를 위해 잘 작동 할 것입니다 그것으로, 당신이 다루는 질문이 아니라면, 무엇에 대해서 생각하는 것이 더 중요합니다 자신 만의 선택을 할 때 작업중인 프로젝트와 프로젝트에 효과적입니다 데이터 과학에서 일하는 도구

"데이터 과학에서 코딩"을 할 때 가장 당신이 할 수있는 중요한 일은 웹 데이터로 작업 할 수 있다는 것입니다 그리고 만약 당신이 웹 데이터를 HTML로 작업하게 될 것입니다 그리고 익숙하지 않은 경우 HTML 월드 와이드 웹이 돌아가는 이유입니다 그것이 의미하는 것은 하이퍼 텍스트 마크 업 언어 – 이전에 웹 페이지를 다루지 않았다면 여기에 약간의 비밀이 있습니다 웹 페이지 텍스트 일뿐입니다

텍스트 문서 일 뿐이지 만 태그를 사용하여 문서와 웹 브라우저는 이러한 태그가 무엇인지 알고 있으며, 오른쪽에 표시합니다 방법 예를 들어 태그 중 일부는 다음과 같습니다 그들은 꺾쇠 괄호 안에 있습니다 꺽쇠 괄호가 있고 시작 태그가 있으므로 몸체를가집니다

본문, 텍스트의 주요 부분, 그리고 꺽쇠 괄호 안에 백 슬래시가 있습니다 body를 사용하여 컴퓨터에서 해당 부분을 완료했음을 알립니다 또한 p와 백 슬래시가 있습니다 단락은 p H1은 머리글 하나에 해당 텍스트 사이에 넣습니다

TD는 테이블 데이터 또는 셀을 테이블에 넣고 그런 식으로 표시합니다 무엇을보고 싶다면 이 문서는 DS03_3_1_HTMLtxt로 보입니다 나는 바로 지금 그곳에 갈 것입니다 지금, 어떤 텍스트 편집기를 열어 놓았 느냐에 따라 실제로 웹 미리보기가 제공 될 수 있습니다

TextMate에서 열어서 실제로 입력 한대로 텍스트를 보여줍니다 나는 이것을 수동으로 입력하십시오 방금 입력 했어 그리고 HTML을 가지고 어떤 문서를 볼 수 있습니까? 나는 빈 헤더를 가지고 있지만, 그런 종류의 존재가 필요하다 이것, 나는 시체가있다, 그리고 나는 약간의 본문을 가지고있다

li은 목록 항목 용이며 헤더가 있습니다 웹 페이지 링크를 클릭하면 작은 표가 나타납니다 그리고이게 어떻게 생겼는지보고 싶다면 웹 페이지로 표시 될 때 여기로 가서 웹 미리보기를 표시하십시오 이것이 동일한 문서이지만, 지금은 브라우저에 있으며 웹 페이지를 만드는 방법입니다 지금 이것이 매우 기본적인 것임을 알아야합니다

그러나 이것이 중요한 이유는 여러분이 웹에서 데이터를 추출하려는 경우 해당 정보가 어떻게 웹에 인코딩되어 있으며 정규 HTML을위한 대부분의 시간 동안 HTML에있게됩니다 웹 페이지 이제 CSS라고하는 또 다른 것이 있습니다 웹 페이지 CSS를 사용하여 문서의 모양을 정의하십시오 HTML은 이론적으로 콘텐츠를 제공합니다

CSS는 외관을 제공합니다 그리고 그것은 Cascading Style Sheets를 의미합니다 나는 가지 않을거야 우리가 실제로 콘텐츠에 관심이 있기 때문에 지금 당장 걱정할 필요가 있습니다 그리고 지금 웹 페이지를 읽고 웹 페이지에서 데이터를 가져올 수있는 열쇠가 있습니다

데이터 과학 프로젝트 그래서, 합계; 먼저 웹은 HTML로 실행되며 이것이 바로 거기있는 웹 페이지 HTML은 페이지 구조와 위에있는 내용을 정의합니다 그 페이지 그리고 태그와 구조를 탐색하는 방법을 알아야합니다

데이터 과학 프로젝트를위한 웹 페이지의 데이터 "코딩 및 데이터"의 다음 단계 과학 "은 웹 데이터로 작업 할 때 XML에 대해 조금 이해하는 것입니다 이것을 웹 데이터의 일부로 생각하는 것이 중요합니다 "데이터, 정의 XML "은 XML (eXtensible Markup Language)의 약자로 XML은 반 구조화 된 것입니다 데이터

이것이 의미하는 것은 태그가 데이터를 정의하므로 컴퓨터가 특정 정보의 조각이다 그러나 HTML과 달리 태그는 자유롭게 정의 할 수 있습니다 필요 그리고 당신은 거기에이 엄청난 융통성을 갖지만, 당신은 여전히 컴퓨터가 그것을 읽을 수 있도록 이제 보게 될 몇 가지 장소가 있습니다

XML 파일 번호 하나는 웹 데이터에 있습니다 HTML은 웹 페이지의 구조를 정의하지만 if 데이터를 입력하면 XML 파일 형식으로 제공됩니다 재미있게, docx 또는

xlsx가있는 경우 Microsoft Office 파일은 끝에있는 X 부분을 의미합니다 이러한 문서를 만드는 데 사용되는 XML 버전입니다 iTunes를 사용하는 경우 라이브러리 모든 아티스트와 장르, 평점 및 자료가 포함 된 정보, 그것은 모두 XML 파일에 저장됩니다 그리고 마지막으로, 종종 특정 데이터 파일 프로그램은 데이터 구조를 프로그램에 표시하는 방법으로 XML로 저장할 수 있습니다 XML의 경우 태그는 HTML처럼 여는 괄호와 닫는 꺽쇠 괄호를 사용합니다

다시, 주요 차이점은 당신이 원하는대로 태그를 자유롭게 정의 할 수 있다는 것입니다 그래서 예를 들어, iTunes에 대해 생각하면 장르의 태그를 정의 할 수 있으며 꺾쇠 괄호 장르로 그 정보를 시작하면 백 슬래시가있는 꺾쇠 괄호가 생깁니다 당신이 그 정보로 끝났음을 알리는 것입니다 또는 작곡가를 위해 할 수 있습니다 또는 등급을 매기기 위해 그것을 할 수도 있고, 코멘트를 위해 그것을 할 수도 있고, 태그를 만들 수 있습니다 당신은 그 두 가지 사이에 정보를 넣고 싶습니다

이제 예를 들어 봅시다 어떻게 작동하는지 웹에서 나오는 빠른 데이터 세트를 보여 드리겠습니다 그 ergastcom 및 API에서 자동차 수식에 대한 정보를 저장하는 웹 사이트입니다

하나의 경주 이 웹 페이지로 가서 그것이 무엇인지 잠깐 살펴 보겠습니다 그래서, 여기 우리는 Ergastcom에 있으며, 그것은 Formula One 용 API입니다 그리고 제가 가져 오는 것은 결과입니다

포뮬러 원 경주에서 1957 시즌의 그리고 여기에서 경쟁자가 누구인지를 볼 수 있습니다 각 레이스에서, 그리고 그들이 어떻게 끝내 었는지 등등 따라서 이것은 표시되는 데이터 집합입니다 웹 페이지에서 XML로 어떻게 보이는지 알고 싶다면 입력하십시오

XML의 끝 부분 : XML 나는 이미 그렇게 해왔다 그래서 나는 단지 그것에 갈 것이다 하나

보시다시피, 제가 추가 한 것은이 비트입니다 : XML 이제, 웹 페이지가 기본적으로 XML 데이터를 구성하기 때문에 동일하지만, 원시 형식처럼 보이고, 옵션을 수행하고, 웹 페이지를 클릭하고,보기로 이동합니다 페이지 소스 적어도 Chrome에서 작동하는 방식이며 구조화 된 XML입니다

페이지 여기에 태그가 있음을 알 수 있습니다 레이스 이름, 서킷 이름, 위치 및 분명히 표준 HTML 태그가 아닙니다 그들은 이것의 목적을 위해 정의됩니다 특정 데이터 세트

그러나 우리는 하나부터 시작합니다 회로 이름이 있습니다 그리고 나서 우리는 거기에 백 슬래시를 사용하여 닫습니다 그리고 이것은 구조화 된 데이터입니다 컴퓨터 그것을 읽는 법을 알고 있습니다

정확히 이것은 이것이 기본적으로 그것을 어떻게 표시하는지입니다 그래서, 그것은 데이터를 표시하는 정말 좋은 방법이며 데이터를 가져 오는 방법을 알기위한 좋은 방법입니다 편물 실제로 API라고하는 응용 프로그램 프로그래밍 인터페이스 이 XML 데이터에 액세스하고 작업 구조를 가져옵니다 정말 쉽습니다

더욱 흥미로운 점은 XML 데이터를 가져와 변환하는 것이 얼마나 쉬운 지입니다 형식이 다르며 컴퓨터가 자신의 존재를 알고 있기 때문에 다른 형식간에 다루고있어 예를 들어 XML을 CSV 또는 쉼표로 쉽게 변환 할 수 있습니다 값 파일 (스프레드 시트 형식)입니다 아르; 각 열에 어떤 정보가 들어 있는지

예 2 : 변환하기가 정말 쉽습니다 제한된 태그 세트로 HTML을 생각할 수 있기 때문에 HTML 문서를 XML로 변환 할 수 있습니다 훨씬 더 자유로운 XML의 부분 집합 세 번째로 CSV 또는 스프레드 시트를 쉼표로 구분 된 값을 XML로, 그 반대의 경우도 마찬가지입니다 그들을 앞뒤로 바운스 할 수 있습니다

구조는 당신이 작업하고있는 프로그램에 명확 해집니다 그래서 요약하면 다음과 같습니다 우리는 말할 수있다 첫째, XML은 반 구조화 된 데이터입니다 그것이 의미하는 바는 태그가 있다는 것입니다

컴퓨터에 정보가 무엇인지 알려주지 만 태그를 만들 수 있습니다 그들이되기를 바란다 XML은 웹 데이터에 매우 일반적이며 번역하기가 쉽습니다 형식 XML / HTML / CSV 등등 다시 번역하기가 쉽습니다

데이터를 조작 할 때 많은 유연성을 제공하므로 형식을 사용할 수 있습니다 당신은 당신의 분석을 위해 필요합니다 "코딩 및 데이터 과학"에 대해 언급하고 싶은 마지막 사항 웹 데이터는 JSON이라고하는 것입니다 그리고 저는 그것을 더 작은 버전으로 생각하고 싶습니다 더 나은

JSON의 약자는 자바 스크립트 객체 표기법입니다 한마디로 그리고 그것은 XML과 마찬가지로 JSON은 반 구조화 된 데이터입니다 그건, 데이터를 정의하는 태그가 있으므로 컴퓨터는 각 정보의 내용 하지만 XML과 마찬가지로 태그는 자유롭게 다를 수 있습니다 XML 사이에는 많은 공통점이 있습니다

및 JSON 그래서 XML은 Markup Language입니다 (ML이 의미하는 것입니다) 이것은 의미를 부여합니다 본문; 컴퓨터가 각 정보가 무엇인지 알 수 있습니다 또한 XML을 사용하면 문서에 주석을 달아서 메타 데이터를 태그에 넣을 수 있습니다

그래서 꺽쇠 괄호 안에 실제로 정보를 넣어 추가 정보를 제공 할 수 있습니다 문맥 JSON은 데이터 교환을 위해 특별히 설계되었으므로 그 특별한 초점이있어 그리고 구조; JSON은 데이터 구조에 해당합니다 객체와 배열, 숫자와 문자열, 부울을 직접 나타냄을 알 수 있습니다

이는 데이터를 분석하는 데 사용되는 프로그램과 잘 작동합니다 또한 JSON은 일반적으로 닫는 태그가 필요 없기 때문에 XML보다 짧습니다 이제는 할 수있는 방법이 있습니다 그것은 XML과 함께하지만, 일반적으로 어떻게 완료되었는지는 아닙니다 이러한 차이의 결과로, JSON은 기본적으로 웹 데이터에서 XML의 위치를 ​​차지합니다

여전히 존재하는 XML은 여전히 ​​사용됩니다 많은 것들이 있지만 JSON은 천천히 그것을 대체하고 있습니다 그리고 우리는 비교를 살펴볼 것입니다 우리가 XML에서 사용한 예제로 돌아가서 세 가지 사이에서 이것은 수식에 관한 데이터입니다

한 자동차는 ergastcom에서 1957 년에 경쟁합니다 첫 번째 웹 페이지로 이동하면됩니다 우리는 다른 것들로 이동합니다 그래서 이것은 일반적인 페이지입니다

당신이 XML 또는 JSON 또는 아무것도 입력하지 않고 입력하십시오 그래서 그것은 정보 테이블입니다 우리는 이전에

XML을 끝에 추가하면된다고 보았습니다 그것은 똑같은 것처럼 보입니다 이 브라우저가 XML을 올바르게 표시하기 때문입니다 태만 그러나, 만약 당신이 그것을 오른쪽 클릭하고, 페이지 소스를 보러 간다면, 당신은 대신 이것을 얻으면 구조를 볼 수 있습니다

이것은 여전히 ​​XML이므로 모든 것이 여는 태그와 닫는 태그 및 거기에 몇 가지 추가 정보 그러나 입력 할 경우 JSON 당신이 정말로 얻는 것은이 뒤죽박죽이다 이제 불행한 점이 있습니다 이것에 많은 구조가 있습니다

그래서, 내가 할 일은, 실제로 갈거야 이 모든 데이터를 복사 한 다음 작은 웹 페이지로 이동합니다 많은 것들이있다 당신은 여기에서 할 수 있고, 그것은 귀여운 문구입니다 JSON Pretty Print라고합니다

그리고 그것은 make입니다 구조적으로 보이기 때문에 읽기가 더 쉽습니다 나는 거기에 붙이고 Pretty를 쳤어 JSON을 인쇄하면 이제 데이터의 계층 적 구조를 볼 수 있습니다 흥미로운 것 JSON 태그는 시작 부분에만 태그가 있습니다

시리즈를 따옴표로 묶어 말합니다 콜론을 입력하면 따옴표로 된 정보와 쉼표가 주어지며 다음 그리고 이것은 데이터가 무언가에 표현되는 방식과 훨씬 비슷합니다 R 또는 Python과 같은 또한보다 콤팩트합니다

다시 말하지만, XML로 할 수있는 일이 있습니다 하지만 이것이 JSON이 웹 사이트의 데이터 통신 업체로 선호되는 이유 중 하나입니다 짐작할 수 있듯이 형식을 변환하는 것은 정말 쉽습니다 그것은 간단합니다 XML, JSON, CSV 등으로 변환 할 수 있습니다 버전을 붙여 넣을 수있는 웹 페이지를 얻을 수 있습니다 안으로 들어가면 다른 버전이 나옵니다

몇 가지 차이점이 있지만 대다수의 사람들에게는 상황의 경우, 그들은 상호 교환 가능합니다 합계 : 우리는 이것을 어떻게 얻었습니까? XML과 마찬가지로, JSON은 정보가 무엇인지 말하는 태그가있는 반 구조화 된 데이터입니다 하지만 원하는대로 태그를 정의 할 수 있습니다 JSON은 데이터 교환을 위해 특별히 설계되었습니다 프로그램의 데이터 구조를 반영하기 때문에 실제로 쉬운

또한 상대적으로 조밀하기 때문에 JSON이 점차 웹상의 XML을 대체하고 있습니다 웹 페이지의 데이터 컨테이너입니다 우리가 "코딩 및 데이터" 과학 "과 사용 된 언어가 가장 중요합니다 즉, 많은 표준에 따르면, R은 데이터 및 데이터 과학의 언어입니다 에 대한 예를 들어이 차트를 살펴보십시오

이것은 데이터 마이닝에 대한 조사를 기반으로 한 순위입니다 그들이 일하는 데 사용하는 소프트웨어의 전문가이며, R이 바로 위에 있습니다 R이 처음이며, 실제로 중요한 것은 파이썬이 보통 손에 잡혀 있기 때문입니다 데이터 과학을위한 R과 손 잡고 그러나 R은 Python이 사용하는 것보다 50 % 더 많이 사용합니다 이 특별한 목록

그 인기에 대한 몇 가지 이유가 있습니다 번호 하나, R은 무료입니다 오픈 소스이기 때문에 두 가지 모두 매우 쉽습니다 둘째, R이 특별히 개발되었습니다 벡터 연산

이는 데이터없이 전체 데이터 목록을 처리 할 수 ​​있음을 의미합니다 'for'루프를 작성해야합니다 혹시 for 루프를 써야한다면, 당신은 그것이 데이터 분석으로 그렇게하는 것이 비참한 일이라는 것을 알고 있습니다 다음 것, R에는 멋진 커뮤니티가 있습니다 R, 당신을 가진 것에 도움을 얻는 것은 아주 쉽습니다

구글, 당신은 좋은 곳을 찾을 수있는 곳으로 가게 될 것입니다 당신이 필요로하는 것들의 예 그리고 아마도 가장 중요한 것은 R이 매우 유능하다는 것입니다 R에는 7,000 명이있다 R에 기능을 추가하는 패키지

본질적으로 모든 것을 할 수 있습니다 자, 일할 때 R을 사용하면 실제로 인터페이스를 선택할 수 있습니다 즉, 코딩을 실제로 수행하는 방법과 결과를 얻는 방법 R은 자체 IDE 또는 대화 형 개발 환경과 함께 제공됩니다

그렇게 할 수 있습니다 Mac 또는 Linux를 사용하는 경우 실제로 R을 할 수 있습니다 명령 행을 통해 터미널 R을 설치 한 경우 R을 입력하면 시작됩니다 쪽으로

RStudiocom이라는 매우 유명한 개발 환경도 있습니다 사실 제가 사용하는 것과 제가 모든 예를 위해 사용할 것입니다 그러나 다른 새로운 경쟁자는 Jupyter로, Python에서 매우 일반적으로 사용됩니다 그게 내가 예제에 사용하는거야

그곳에 로컬로 설치된 경우에도 브라우저 창에서 작동합니다 그리고 RStudio 그리고 Jupyter에는 각각 플러스와 마이너스가 있습니다 그들 각각에게 그러나 어떤 인터페이스를 사용하든 관계없이 R의 명령 줄에는 입력하는 줄이 있습니다

명령을 얻기 위해 코드를 수정해야합니다 어떤 사람들은 그것에 대해 정말로 두려워하게됩니다 복제 가능성과 실제로 접근성 측면에서 이점이 있습니다 명령의 투명성 예를 들어, 여기에 몇 가지 간단한 예제가 있습니다

R의 명령 콘솔이라고 불리는 것에 입력 할 수 있습니다 한 번에 한 줄씩 표시 할 수 있습니다 또는 스크립트를 저장하고 비트를 실행할 수 있습니다 조각을 선택적으로 사용하면 삶이 훨씬 쉬워집니다

당신이 그것을 어떻게해도, 만약 당신이 다른 언어를 프로그래밍하는 것에 익숙하다면 R 's 좀 이상하다 그것은 특이한 모델을 가지고 있습니다 일단 익숙해지면 말이됩니다 다른 접근법이기 때문에 프로그래밍에 익숙하다면 약간의 적응이 필요합니다 다른 언어로

이제 출력을 얻기 위해 프로그래밍을 한 후에는 그래프는 별도의 창에 표시됩니다 텍스트와 숫자, 숫자를 얻을 것입니다 출력을 콘솔에 저장할 수 있으며 출력 내용을 파일에 저장할 수 있습니다 따라서 이식성이 뛰어나고 다른 환경에서도 사용할 수 있습니다 그러나 가장 중요한 것은, 저는 이것을 생각하고 있습니다

여기에 당신이 무엇인지 모를 초콜릿 상자가 있습니다 얻을 것입니다 R의 아름다움은 기능을 확장하는 데 사용할 수있는 패키지에 있습니다 이제는 R에 대한 두 가지 패키지 소스가 있습니다 하나는 CRAN이라는 이름으로 사용되며, Comprehensive R Archive Network의 약자로 cran

rstudiocom에 있습니다 그리고 그게 뭐야? does는 사용할 수있는 7,000 개의 다른 패키지를 받아서 작업보기라고 부르는 항목 그리고 각자 숙제를했다면, 패키지와 함께 제공되는 데이터 세트가 있습니다pdf 형식의 설명서가 있습니다

어떻게하는지 보여주는 예를 통해 비 네트를 사용할 수도 있습니다 다른 인터페이스는 Crantastic! 그리고 느낌표는 제목의 일부입니다 그리고 그곳에 있습니다 crantasticorg

그리고 이것이 무엇인지, CRAN에 연결되는 대체 인터페이스입니다 그래서 찾으면 당신이 좋아하는 무언가를 Crantastic! 링크를 클릭하면 CRAN에서 열립니다 그러나 Crantastic에 관한 멋진 물건! 그것은 패키지의 인기를 보여 주며, 또한 최근에 그들이 업데이트 된 방법을 보여줍니다 그리고 그것은 당신이 알고있는 좋은 방법이 될 수 있습니다 최신이고 가장 위대한 것의 종류

이제이 매우 추상적 인 프리젠 테이션을 통해 우리는 R에 관한 몇 가지 사실 : 많은 사람들에 따르면, R은 데이터 과학의 언어입니다 명령 줄 인터페이스입니다 코드 줄을 입력하면 두 줄을 모두 얻을 수 있습니다 어떤 사람들에게는 힘과 도전이됩니다 그러나 아름다운 것은 수천 R에 사용할 수있는 수천 개의 추가 코드 및 기능 패키지, 이 통계 프로그래밍 언어에서 거의 모든 것을 할 수있게하십시오

언제, "코딩 및 데이터 과학"에 대해 이야기하고 R과 함께 언어에 대해 이야기해야합니다 파이썬에 대해 이제 파이썬 뱀은 모든 것을 할 수있는 범용 프로그램입니다 그것은 그 아름다움입니다 데이터 마이닝에 사용 된 소프트웨어에 대한 설문 조사로 돌아 가면 전문가라면 파이썬이 있고 목록에 3이라는 것을 알 수 있습니다

중요한 것 이 목록에있는 것이 파이썬이 유일한 범용 프로그래밍 언어입니다 이론적으로 모든 종류의 응용 프로그램을 개발하는 데 사용할 수있는 유일한 도구입니다 네가 원해 그것은 다른 모든 것에 비해 특별한 힘을 주며, 그 중 대부분은 데이터 과학 작업에 매우 특정 적입니다 파이썬에 관한 좋은 점은 첫째, 그것은 일반적인 목적입니다

또한 사용하기 쉽고 매킨토시 또는 리눅스를 사용하는 경우 컴퓨터에 Python이 내장되어 있습니다 또한 파이썬에는 수백 가지의 멋진 커뮤니티가 있습니다 수천 명의 사람들이 참여했으며, 파이썬에는 수천 개의 패키지가 있습니다 자, 이제 실제로 70 또는 80,000 패키지가 있지만 데이터 용 패키지의 측면에서 보면 아직도 그것에게 약간 믿을 수없는 기능을주는 수천 유효한 몇 가지 파이썬에 대해 알고 싶습니다

첫째, 버전에 관한 것입니다 파이썬에는 두 가지 버전이 있습니다 넓은 순환 : 2x가 있습니다 2

5, 26, 3x와 같은 의미입니다 그래서 31, 3

2 버전 2와 버전 3은 비슷하지만 동일하지 않습니다 사실, 문제는 이 : 하나에서 실행되는 코드가 실행되지 않는 몇 가지 호환성 문제가 있습니다 다른 하나 따라서 대부분의 사람들은 하나와 다른 것을 선택해야합니다

그리고 뭐 이것은 많은 사람들이 여전히 2x를 사용한다는 것입니다 나는 그 예들에서 사용하는 데이터 과학 패키지가 너무 많아서 2x를 사용하고 있습니다 그걸 염두에 두시오

이제 파이썬 용 인터페이스에 대해 몇 가지 말씀 드리겠습니다 첫째, 파이썬 자체 인터랙티브 개발 학습 환경 (Interactive Development Learning Environment)과 함께 제공되며 IDLE이라고합니다 또한 터미널이나 명령 줄 인터페이스 또는 다른 IDE에서 실행할 수도 있습니다 있다 매우 일반적이며 매우 좋은 선택은 Jupyter입니다

Jupyter는 브라우저 기반 프레임 워크입니다 프로그래밍을 위해 그리고 그것은 원래 IPython이라고 불렸다 그것의 초기 역할을 했으므로 많은 사람들이 IPython에 대해 이야기 할 때, 그들이 실제로 이야기하고있는 것들 이 파이썬은 Jupyter에 있으며 두 개는 때때로 같은 의미로 사용됩니다 하나의 당신이 할 수있는 깔끔한 것들에는 Continuum과 Enthought의 두 회사가 있습니다 둘 다 수백, 수백 개의 사전 구성된 Python 배포판을 만들었습니다

데이터로 작업하기가 매우 쉽습니다 개인적으로 Continuum Anaconda를 선호합니다 내가 사용하는 것, 다른 많은 사람들이 사용하는 것이지만 어느 것이 든 작동 할 것입니다 그것은 당신을 일으키고 달릴 것입니다 그리고 R과 마찬가지로, 어떤 인터페이스 당신은 모두 명령 줄입니다

코드 줄을 입력하고 있습니다 다시 한번 말하지만, 엄청난 것이 있습니다 그러나 그 힘은 처음에는 어떤 사람들에게는 협박 할 수 있습니다 실제 측면에서 파이썬의 명령, 여기에 몇 가지 예가 있습니다 중요한 것은 텍스트 인터페이스임을 기억하십시오

반면에 파이썬은 수백만에 익숙합니다 왜냐하면 그것은 종종 사람들이 일반적인 것을 배우는 첫 번째 프로그래밍 언어이기 때문입니다 목적 프로그래밍 데이터를 만드는 데 아주 간단한 방법이 많이 있습니다 그것은 데이터 과학 작업에 매우 강력합니다

다시 말하자면 데이터 과학 Jupyter를 좋아하고 Jupyter는 브라우저 기반 프레임 워크입니다 로컬 설치이지만 웹 브라우저를 통해 액세스하면 정말 훌륭한 작업을 수행 할 수 있습니다 데이터 과학 이것에 대한 몇 가지 이유가 있습니다 당신이 주피터에서 일할 때 당신은 텍스트 출력을 사용하고 문서 서식 지정 방법으로 Markdown을 사용할 수 있습니다

그래픽이 코드 바로 아래에 표시되도록 인라인 그래픽을 얻을 수 있습니다 훌륭해 또한 수행 된 분석을 구성, 제시 및 공유하는 것이 매우 쉽습니다 Jupyter에서 어느 것이 당신이 데이터 과학을하는 방식에서 당신의 선택에 대한 강력한 경쟁자가됩니다 프로그램 작성

R과 같이 파이썬에 대한 또 다른 아름다운 것들 중 하나는 패키지 수천 사용할 수 있습니다 파이썬에는 하나의 메인 저장소가 있습니다 그것은 PyPI 이름 파이썬 패키지 색인을위한 것입니다 바로 여기에 8 만 명이 넘는다

패키지 중 7 개 또는 8,000 개는 데이터 관련 용도로 사용됩니다 패키지 중 일부는 과학적 컴퓨팅을위한 NumPy와 SciPy는 매우 익숙해 져야합니다 일반적으로; Matplotlib 및 Seaborn이라 불리는 그 개발은 데이터 시각화를위한 것입니다 및 그래픽 팬더는 통계 분석의 주요 패키지입니다

그리고 기계 용 배우기, 거의 아무것도 scikit-learn를 치지 않는다 그리고 실습 예제를 통해 파이썬, 나는이 모든 것을 프로그램의 힘을 보여주는 방법으로 사용할 것이다 데이터 작업 요약하면 몇 가지를 말할 수 있습니다 : 파이썬은 매우 인기있는 프로그램입니다 수백만 명의 사람들에게 매우 익숙하며 좋은 선택입니다 둘째, 모든 우리는 데이터 과학을 위해 자주 사용하는 언어를 사용합니다

목적 즉, 데이터 처리 이외의 많은 작업에 사용될 수 있습니다 또한 R과 같이 수천 개의 패키지를 제공하는 것에서 그 힘을 얻습니다 특히 데이터 과학 작업의 측면에서 그 기능을 확장하십시오 "코딩 옵션 In Data Science, "라고 말하면서 곧바로 마음에 들지 않는 언어 중 하나인데 데이터 과학이 Sequel 또는 SQL이라고 생각합니다

SQL은 데이터베이스의 언어이며 우리는 생각합니다 "왜 우리는 SQL로 작업하고 싶습니까?" 유명한 은행 강도 인 윌리 수든을 바꾸어 말하려합니다 그는 왜 은행을 털 었는지 설명하면서 분명히 설명했다 : "그것이 돈 "데이터 과학에서 SQL을 사용하는 이유는 그것이 데이터가있는 곳이기 때문입니다 데이터 마이닝 전문가들 간의 소프트웨어 순위에 대해 다시 한 번 살펴 보도록하겠습니다 SQL이 있습니다

목록의 세 번째 목록과이 목록의 첫 번째 데이터베이스 수단 예를 들어 다른 도구는 훨씬 더 멋지고 새롭고 빛나기는하지만 SQL 잠시 동안 매우 유능한 사람이었습니다 SQL에 대해 알아야 할 몇 가지 사항이 있습니다 당신 Sequel은 Structured Query Language (구조화 된 쿼리 언어)의 약자 임에도 불구하고 말입니다 SQL 응용 프로그램이 아니라 언어입니다

프로그램 SQL은 없습니다 다른 응용 분야에서 사용될 수 있습니다 주로 SQL은 관계형 데이터베이스 이것들은 구조화 된 데이터를 저장할 수있는 특별한 방법입니다 당신은 특별한 방법으로 그것들을 합칠 수 있습니다, 당신은 요약 통계를 얻을 수 있습니다, 그런 다음 일반적으로 수행하는 작업은 해당 데이터를 분석 응용 프로그램으로 내보내는 것입니다 선택의 여지가

여기서 가장 중요한 것은 RDBMS – 관계형 데이터베이스 관리 시스템 (Relational Database Management System)입니다 그곳은 일반적으로 SQL이 사용되는 쿼리 언어로 간주됩니다 관계형 데이터베이스 측면에서 관리 시스템에는 매우 일반적인 선택 사항이 몇 가지 있습니다 산업 사회에서 사람들 지출 할 돈이 있으니 오라클 데이터베이스는 매우 일반적이며 Microsoft SQL Server입니다 In the open source world, two very common choices are MySQL, even though we generally say Sequel, when it's here you generally say MySQL

Another one is PostgreSQL 이것들은 both open source, free versions of the language; sort of dialects of each, that make it possible for you to working with your databases and for you to get your information out The neat thing about them, no matter what you do, databases minimize data redundancy by using connected tables Each table has rows and columns and they store different levels or different of abstraction or measurement, which means you only have to put the information one place and then it can refer to lots of other tables Makes it very easy to keep things organized and up to date

When you are looking into a way of working with a Relational Database Management System, you get to choose in part between using a graphical user interface or GUI Some of those include SQL Developer and SQL Server Management Studio, two very common 선택 And there are a lot of other choices such as Toad and some other choices that are graphical interfaces for working with these databases There are also text-based interfaces So really, any command line interface, and any interactive development environment or programming tool is going to be able to do that

Now, you can think of yourself on the command deck of your ship and think of a few basic commands that are very important for working with SQL There are just a handful of commands that can get you where you need to go There is the Select command, where you're choosing the cases that you want to include From: says what tables are you going to be extracting them from Where: is a way of specifying conditions, and then Order By: obviously is just a way of putting it all 함께

This works because usually when you are in a SQL database you're just pulling out the information You want to select it, you want to organize it, and then what you are going to do is you are going to send the data to your program of choice for further analysis, like R or Python or whatever In sum here's what we can say about SQL: Number one, as a language it's generally associated with relational databases, which are very efficient and well-structured ways of storing data Just a handful of basic commands can be very useful when working with databases You don't have have to be a super ninja expert, really a handful

Five, 10 commands will probably get you everything you need out of a SQL database Then once the data is organized, the data is typically exported to some other program for analysis When you talk about coding in any field, one of the languages or one of the groups of languages that come up most often are C, C++, and Java These are extremely powerful applications and very frequently used for professional, production level coding In data science, the place where you will see these languages most often is in the bedrock

The absolute fundamental layer that makes the rest of data science possible 예를 들어, C and C++ C is from the '60s, C++ is from the '80s, and they have extraordinary wide usage, and their major advantage is that they're really really fast In fact, C is usually used as the benchmark for how fast is a language They are also very, very stable, which makes them really well suited to production-level code and, for instance, server use

무엇이 really neat is that in certain situations, if time is really important, if speeds important, then you can actually use C code in R or other statistical languages Next is Java 자바 is based on C++, it's major contribution was the WORA or the Write Once Run Anywhere 그만큼 idea that you were going to be able to develop code that is portable to different machines and different environments Because of that, Java is the most popular computer programming language overall against all tech situations

The place you would use these in data science, like I said, when time is of the essence, when something has to be fast, it has to get the job accomplished quickly, and it has to not break Then these are the ones you're probably going to use The people who are going to use it are primarily going to be engineers The engineers and the software developers who deal with the inner workings of the algorithms in data science or the back end of data science The servers and the mainframes and the entire structure that makes analysis possible

In terms of analysts, people who are actually analyzing the data, typically don't do hands-on work with the foundational 집단 They don't usually touch C or C++, more of the work is on the front end or closer to the high-level languages like R or Python In sum: C, C++ and Java form a foundational bedrock in the back end of data and data science They do this because they are very fast and they are very reliable On the other hand, given their nature that work is typically reserved for the engineers who are working with the equipment that runs in the back that makes the rest of the analysis possible

I want to finish our extremely brief discussion of "Coding in Data Sciences" and the languages that can be used, by mentioning one other that's called Bash Bash really is a great example of old tools that have survived and are still being used actively and productively with new data You can think of it this way, it's almost like typing on your typewriter You're working at the command line, you're typing out code through a command line interface or a CLI This method of interacting with computers practically goes back to the typewriter phase, because it predates monitors

So, before you even had a monitor, you would type out the code and it would print it out on a piece of paper The important thing to know about the command line is it's simply a method of interacting It's not a language, because lots of languages can run at the command line For instance, it is important to talk about the concept of a shell In computer science, a shell is a language or something that wraps around the computer

It's a shell around the language, that is the interaction level for the user to get things done at the lower level that aren't really human-friendly On Mac computers and Linux, the most common is Bash, which is short for Bourne Again Shell On Windows computers, the most common is PowerShell But whatever you do there actually are a lot of choices, there's the Bourne Shell, the C shell; which is why I have a seashell right here, the Z shell, there's fish for Friendly Interactive Shell, and a whole bunch of other choices Bash is the most common on Mac and Linux and PowerShell is the most common on Windows as a method of interacting with the computer at the command line level

There's a few things you need to know about this You have a prompt of some kind, in Bash, it's a dollar sign, and that just means type your command here Then, the other thing is you type one line at a time It's actually amazing how much you can get done with a one-liner program, by sort of piping things together, so one feeds into the other You can run more complex commands if you use a script

그래서, you call a text document that has a bunch of things in it and you can get much more elaborate analyses done Now, we have our tools here In Bash we talk about utilities and what these are, are specific programs that accomplish specific tools Bash really thrives on "Do one thing, and do it very well" There are two general categories of utilities for Bash

Number one, is the Built-ins These are the ones that come installed with it, and so you're able to use it anytime by simply calling in their name Some more common ones are: cat, which is for catenate; that's to put information together There's awk, which is it's own interpreted language, but it's often used for text processing from the command line By the way, the name 'Awk' comes from the initials of the people who created it

Then there's grep, which is for Global search with a Regular Expression and Print 그 a way of searching for information And then there's sed, which stands for Stream Editor and its main use is to transform text You can do an enormous amount with just these 4 utilities A few more are head & tail, display the first or last 10 lines of a document

Sort & uniq, which sort and count the number of unique answers in a document Wc, which is for word count, and printf which formats the output that you get in your console 과 while you can get a huge amount of work done with just this small number of built-in utilities, there are also a wide range of installable Or, other command line utilities that you can add to Bash, or whatever programming language you're using So, since some really good ones that have been recently developed are jq: which is for pulling in JSON or JavaScript, object notation data from the web

And then there's json2csv, which is a way of converting JSON to csv format, which is what a lot of statistical programs are going to be happy 와 There's Rio which allows you to run a wide range of commands from the statistical programming language R in the command line as part of Bash And then there's BigMLer This is a command line tool that allows you to access BigML's machine learning servers through the command line Normally, you do it through a web browser and it accesses their servers remote

It's an amazingly useful program but to be able to just pull it up when you're in the command line is an enormous benefit What's interesting is that even though you have all these opportunities, all these different utilities, you can do all amazing things And there's still an active element of utilities for the command line So, in sum: despite being in one sense as old as the dinosaurs, the command line survives because it is extremely well evolved and well suited to its purpose of working with data The utilities; 양자 모두 the built-in and the installable are fast and they are easy

In general, they do one thing and they do it very, very well And then surprisingly, there is an enormous amount of very active development of command line utilities for these purposes, especially with data science One critical task when you are Coding in Data Science is to be able to find the things that you are looking for, and Regex (which is short of Regular Expressions) is a wonderful way to do that You can think of it as the supercharged method for finding needles in haystacks Now, Regex tends to look a little cryptic so, for instance, here's an example

As something that's designed to determine if something is a valid email address, and it specifies what can go in the beginning, you have the at sign in the middle, then you've got a certain number of letters and numbers, then you have to have a dot something at the 종료 And so, this is a special kind of code for indicating what can go where Now regular expressions, or regex, are really a form of pattern matching in text And it's a way of specifying what needs to be where, what can vary, and how much it can vary And you can write both specific patterns; say I only want a one letter variation here, or a very general like the email validator that I showed you

And the idea here is that you can write this search pattern, your little wild card thing, you can find the data and then once you identify those cases, then you export them into another program for analysis So here's a short example of how it can work What I've done is taken some text documents, they're actually the texts to Emma and to Pygmalion, two books I got off of Project Gutenberg, and this is the command Grep ^lve *

txt – so what I'm looking for in either of these books are lines that start with 'l', then they can have one character; can be whatever, then that's followed by 've', and then the txt means search for all the text files in the particular 폴더 And what it found were lines that began with love, and lived, and lovely, and 곧 Now in terms of the actual nuts and bolts of regular expressions, there are some certain elements There are literals, and those are things that are exactly what they 평균

You type the letter 'l', you're looking for the letter 'l' There are also metacharacters, which specify, for instance, things need to go here; they're characters but are really code that give representations Now, there are also escape sequences, which is normally this character is used as a variable, but I want to really look for a period as opposed to a placeholder Then you have the entire search expression that you create and you have the target string, the thing that it is searching through So let me give you a few very short examples

^ this is the caret This is the sometimes called a hat or in French, a circonflexe What that means, you're looking for something at the beginning of the search you are searching For example, you can have ^ and capital M, that means you need something that begins with capital M For instance the word "Mac," true, it will find that

하지만 you have iMac, it's a capital M, but it's not the first letter and so that would be false, it won't find that The $ means you are looking for something at the end of the 끈 So for example: ing$ that will find the word 'fling' because it ends in 'ing', but it won't find the word 'flings' because it actually ends with an 's' 그리고 나서 dot, the period, simply means that we are looking for one letter and it can be anything So, for example, you can write 'at

' And that will find 'data' because it has an 'a', a 't', and then one letter after it But it won't find 'flat', because 'flat' doesn't have anything after the 'at' And so these are extremely simple examples of how it can work Obviously, it gets more complicated and the real power comes when you start combining these bits and elements

Now, one interesting thing about this is you can actually treat this as a game I love this website, it's called Regex golf and it's at regexalfnu And what it does is brings up lists of words; two columns, and your job is to write a regular expression in the top, that matches all the words on the left column and none of the words 오른쪽으로

And uses the fewest characters possible, and you get a score! And it's a great way of learning how to do regular expressions and learning how to search in a way that is going to get you the data you need for your projects So, in sum: Regex, or regular expressions, help you find the right data for your project, they're very powerful and they're very flexible Now, on the other hand, they are cryptic, at least when you first look at them but at the same time, it's like a puzzle and it can be a lot of fun if you practice it and you see how you can find what you need I want to thank you for joining me in "Coding in Data Science" and we'll wrap up this course by talking about some of the specific next steps you can take for working in data science The idea here, is that you want to get some tools and you want to start working with those tools

Now, please keep in mind something that I've said at another time Data tools and data science are related, they're important but don't make the mistake of thinking that if you know the tools that you have done the same thing as actually conducted data science That's not true, people sometimes get a little enthusiastic and they get a little carried away What you need to remember is the relationship really is this: Data Tools are an important part of data science, but data science itself is much bigger than just the tools Now, speaking of tools remember there's a few kinds that you can use, and that you might want to get some experience with these

#1, in terms of just Apps, specific built applications Excel & Tableau are really fundamental for both getting the data from clients or doing some basic data browsing and Tableau is really wonderful for interactive data visualization I strongly recommend you get very comfortable with both of those In terms of code, it's a good idea to learn either 'R' or 'Python' or ideally to learn both Ideally because you can use them hand in hand In terms of utilities, it's a great idea to work with Bash, the command line utility and to use regular expression or regex

You can actually use those in lots and lots of programs; 정규병 표현 So they can have a very wide application And then finally, data science requires some sort of domain expertise You're going to need some sort of field experience or intimate understanding of a particular domain and the challenges that come up and what constitutes workable answers and the kind of data that's available Now, as you go through all of this, you don't need to build this monstrous list of things

생각해 내다, you don't need everything You don't need every tool, you don't need every function, you don't need every approach Instead remember, get what's best for your needs, and for your 스타일 But no matter what you do, remember that tools are tools, they are a means to 끝 Instead, you want to focus on the goal of your data science project whatever 그것은

And I can tell you really, the goal is in the meaning, extracting meaning out of your data to make informed choices In fact, I'll say a little more The goal is always meaning And so with that, I strongly encourage you to get some tools, get started in data science and start finding meaning in the data that's around you 에 오신 것을 환영합니다 "Mathematics in Data Science"

I'm Barton Poulson and we're going to talk about how Mathematics matters for data science Now, you maybe saying to yourself, "Why math?", and "Computers can do it, I don't need to do it" And really fundamentally, "I don't need math I am just here to do my work" Well, I am here to tell you, No You need math

That is if you want to be a data scientist, and I assume that you do 그래서 우리는 가고있다 to talk about some of the basic elements of Mathematics, really at a conceptual level and how they apply to data science There are few ways that math really matters to data 과학 #1, it allows you to know which procedures to use and why

So you can answer your questions in a way that is the most informative and the most useful #2, if you have a good understanding of math, then you know what to do when things don't work right That you get impossible values or things won't compute, and that makes a huge difference And then #3, an interesting thing is that some mathematical procedures are easier and quicker to do by hand then by actually firing up the computer And so for all 3 of these reasons, it's really helpful to have at least a grounding in Mathematics if you're going to do work in data science

Now probably the most important thing to start with in Algebra And there are 3 kinds of algebra I want to mention The first is elementary algebra, that's the regular x+y Then there is Linear or matrix algebra which looks more complex, but is conceptually it is used by computers to actually do the calculations And then finally I am going to mention Systems of Linear Equations where you have multiple equations simultaneously that you're trying to solve

Now there's more math than just algebra A few other things I'm going to cover 이 과정에서 Calculus, a little bit of Big O or order which has to do with the speed and complexity of operations A little bit of probability theory and a little bit of Bayes or Bayes theorem which is used for getting posterior probabilities and changes the way you interpret the results of an analysis And for the purposes of this course, I'm going to demonstrate the procedures by hand, of course you would use software to do this in the real world, but we are dealing with simple problems at conceptual levels

And really, the most important thing to remember is that even though a lot of people get put off by math, really You can do it! And so, in sum: let's say these three things about math 먼저 off, you do need some math to do good data science It helps you diagnose problems, it helps you choose the right procedures, and interestingly you can do a lot of it by hand, or you can use software computers to do the calculations as well As we begin our discussion of the role of "Mathematics and Data Science", we'll of course begin with the foundational 집단 And in data science nothing is more foundational than Elementary Algebra

지금, I'd like to begin this with really just a bit of history In case you're not aware, the first book on algebra was written in 820 by Muhammad ibn Musa al-Khwarizmi 그리고 그것 was called "The Compendious Book on Calculation by Completion and Balancing" Actually, it was called this, which if you transliterate that comes out to this, but look at this word 바로 여기에 That's the algebra, which means Restoration

In any case, that's where it comes from and for our concerns, there are several kinds of algebra that we're going 얘기하고 There's Elementary Algebra, there's Linear Algebra and there are systems of linear equations We'll talk about each of those in different videos But to put it into context, let's take an example here of salaries Now, this is based on real data from a survey of the salary of people employed in data science and to give a simple version 그것의

The salary was equal to a constant, that's sort of an average value that everybody started with and to that you added years, then some measure of bargaining skills and how many hours they worked per week And that gave you your prediction, but that wasn't exact there's also some error to throw into it to get to the precise value that each person has Now, if you want to abbreviate this, you can write it kind of like this: S + C + Y + B + H + E, although it's more common to write it symbolically like this, and let's go through this equation very quickly The first thing we have is outcome,; we call that y the variable y for person i, "i" stands for each case in our observations So, here's outcome y for person i

This letter here, is a Greek Beta and it represents the intercept or the average, that's why it has a zero, because we don't multiply it times anything But right next to it we have a coefficient for variable 1 So Beta, which means a coefficient, sub 1 for the first variable and then we have variable 1 then x 1, means variable 1, then i means its the score on that variable for person i, whoever we are talking about 그때 we do the same thing for variables 2 and 3, and at the end, we have a little epsilon here with an i for the error term for person i, which says how far off from the prediction was their actual score Now, I'm going to run through some of these procedures and we'll see how they can be applied to data science

But for right now let's just say this in sum First off, Algebra is vital to data science It allows you to combine multiple scores, get a single outcome, do a lot of other manipulations And really, the calculations, their easy for one case at at time Especially when you're doing it by hand

The next step for "Mathematics for Data Science" foundations is to look at Linear algebra or an extension of elementary algebra And depending on your background, you may know this by another name and I like to think welcome to the Matrix Because it's also known as matrix algebra because we are dealing with matrices Now, let's go back to an example I gave in the last video about salary Where salary is equal to a constant plus years, plus bargaining, plus hours plus error, okay that's a way to write it out in words and if you want to put it in symbolic form, it's going to look like this

Now before we get started with matrix algebra, we need to talk about a few new words, maybe you're familiar with them already The first is Scalar, and this means a single number And then a vector is a single row or a single column of numbers that can be treated as a collection That usually means a variable And then finally, a matrix consists of many rows and columns

Sort of a big rectangle of numbers, the plural of that by the way is matrices and the thing to remember is that Machines love Matrices Now let's take a look at a very simple example of this Here is a very basic representation of matrix algebra or Linear Algebra Where we are showing data on two people, on four 변수 So over here on the left, we have the outcomes for cases 1 and 2, our people 1 and 2

And we put it into the square brackets to indicate that it's a vector or a matrix Here on the far left, it's a vector because it's a single column of values Next to that is a matrix, that has here on the top, the scores for case 1, which I've written as x's X1 is for variable 1, X2 is for variable 2 and the second subscript is indicated that it's for person 1 Below that, are the scores for case 2, the second person

And then over here, in another vertical column are the regression coefficients, that's a beta there that we are using And then finally, we've got a tiny little vector here which contains the error terms for cases 1 and 2 Now, even though you would not do this by hand, it's helpful to run through the procedure, so I'm going to show it to you by hand And we are going to take two fictional people This will be fictional person #1, we'll call her Sophie

We'll say that she's 28 years old and we'll say that she's has good bargaining skills, a 4 on a scale of 5, and that she works 50 hours a week and that her salary is $118,00000 Our second fictional person, we'll call him Lars and we'll say that he's 34 years old and he has moderate bargaining skills 3 out of 5, works 35 hours per week and has a salary of $84,00000 And so if we are trying to look at salaries, we can look at our matrix representation that we had here, with our variables indicated with their Latin and sometimes Greek symbols

And we will replace those variables with actual numbers We have the salary for Sophie, our first person So why don't we plug in the numbers here and let's start with the result here Sophie's salary is $118,00000 and here's how all these numbers all add up to get that

The first thing here is the intercept And we just multiply that times 1, so that's sort of the starting point, and then we get this number 10, which actually has to do with years over 18 She's 28 so that's 10 years over 18, we multiply each year by 1395 Next is bargaining skills She's got a 4 out of 5 and for each step up you get $5,900

00 By the way, these are real coefficients from study of survey of salary of data scientists And then finally hours per week For each hour, you get $38200

Now you can add these up, and get a predicted value for her but it's a little low It's $30,0000 low 어느 you may be saying that's pretty messed up, well that's because there's like 40 variables in the equation including she might be the owner and if she's the owner then yes she's going to make a lot more And then we do a similar thing for the second case, but what's neat about matrix algebra or Linear Algebra is this means the same stuff and what we have here are these bolded variables

That stand in for entire vectors or matrices 그래서 instance; this Y, a bold Y stands for the vector of outcome scores This bolded X is the entire matrix of values that each person has on each variable This bolded beta is all of the regression coefficients and then this bolded epsilon is the entire vector of error terms And so it's a really super compact way of representing the entire collection of data and coefficients that you use in predicting values

So in sum, let's say this 우선, computers use matrices They like to do linear algebra to solve problems and is conceptually simpler because you can put it all in there in this type formation In fact, it's a very compact notation and it allows you to manipulate entire collections of numbers pretty easily And that's that major benefit of learning a little bit about linear or matrix algebra

Our next step in "Mathematics for Data Science Foundations" is systems of linear equations And maybe you are familiar with this, but maybe you're not And the idea here is that there are times, when you actually have many unknowns and you're trying to solve for them all simultaneously And what makes this really tricky is that a lot of these are interlocked Specifically that means X depends on Y, but at the same time Y depends on X

What's funny about this, is it's actually pretty easy to solve these by hand and you can also use linear matrix algebra to do it So let's take a little example here of Sales Let's imagine that you have a company and that you've sold 1,000 iPhone cases, so that they are not running around naked like they are in this picture here Some of them sold for $20 and others sold for $5 You made a total of $5,900

00 and so the question is "How many were sold at each price?" Now, if you were keeping our records, but you can also calculate it from this little bit of information And to show you I'm going to do it by hand Now, we're going to start with this We know that sales the two price points x + y add up to 1,000 total cases sold And for revenue, we know that if you multiply a certain number times $20 and another number times $5, that it all adds up to $5,900

00 Between the two of those we can figure out the rest Let's start with sales Now, what I'm going to do is try to isolate the values I am going to do that by putting in this minus y on both sides and then I can take that and I can subtract it, so I'm left with x is equal to 1,000 – y

Normally I solve for x, but I solve for y, you'll see why in just a second Then we go to revenue We know from earlier that our sales at these two prices points, add up to $5,90000 total Now what we are going to do is take the x that's right here and we are going to replace it with the equation we just got, which is 1,000 – y

Then we multiply that through and we get $20,00000 minus $20y plus $5 y equals $5,90000 Well, we can subtract these two because they are on the same thing So, $20y then we get $15y, and then we subtract $20,000

00 from both sides So there it is, right there on the left, and that disappears, then I get it over on the right side And then I do the math there, and I get minus $14, 10000 Well, then I divide both sides by negative $15

00 and when we do that we get y equals 940 Okay, so that's one of our values for sales Let's go back to sales We have x plus y equals 1,000 We take the value we just got, 940, we stick that into the equation, then we can solve for x

Just subtract 940 from each side, there we go We get x is equal to 60 So, let's put it all together, just to recap what happened What this tells us is that 60 cases were sold at $2000 each

And that 940 cases were sold at $5 each Now, what's interesting about this is you can also do this graphically We're going to draw it So, I'm going to graph the two equations Here are the original ones we had

This one predicts sales, this one gives price The problem is, these aren't in the economical form for creating graphs That needs to be y equals something else, so we're going to solve both of these for y We subtract x from both sides, there it is on the left, we subtract that Then we have y is equals to minus x plus 1,000

그게 something we can graph Then we do the same thing for price Let's divide by 5 all the way through, that gets rid of that and then we've got this 4x, then let's subtract 4x from each side And what we are left with is minus 4x plus 1,180, which is also something we can graph So this first line, this indicates cases sold

It originally said x plus y equals 1000, but we rearranged it to y is equal to minus x plus 1000 And so that's the line we have here And then we have another line, which indicates earnings And this one was originally written as $2000 times x plus $5

00 times y equals $5,90000 total We rearranged that to y equals minus 4x plus 1,180 That's the equation for the line and then the solution is right here at the intersection There's our intersection and it's at 60 on the number of cases sold at $20

00 and 940 as the number of cases sold at $500 and that also represents the solution of the joint equations It's a graphical way of solving a system of linear 방정식 So in sum, systems of linear equations allow us to balance several unknowns and find unique solutions And in many cases, it's easy to solve by hand, and it's really easy with linear algebra when you use software to do it at the same time

As we continue our discussion of "Mathematics for Data Science" and the foundational principles the next thing we want to talk about is Calculus And I'm going to give a little more history right 이리 The reason I'm showing you pictures of stones, is because the word Calculus is Latin for stone, as in a stone used for tallying Where when people would actually have a bag of stones and they would use it to count sheep or whatever And the system of Calculus was formalized in the 1,600s simultaneously, independently by Isaac Newton and Gottfried Wilhelm Leibniz

And there are 3 reasons why Calculus is important for data science #1, it's the basis for most of the procedures we do Things like least squares regression and probability distributions, they use Calculus in getting those answers Second one is if you are studying anything that changes over time If you are measuring quantities or rates that change over time then you have to use Calculus

Calculus is used in finding the maxima and minima of functions especially when you're optimizing Which is something I'm going to show you separately Also, it is important to keep in mind, there are two kinds of Calculus The first is differential Calculus, which talks about rates of change at a specific time It's also known as the Calculus of change

The second kind of Calculus is Integral Calculus and this is where you are trying to calculate the quantity of something at a specific time, given the rate of change It's also known as the Calculus of Accumulation So, let's take a look at how this works and we're going to focus on differential Calculus So I'm going to graph an equation here, I'm going to do y equals x2 a very simple one but it's a curve which makes it harder to calculate things like the slope Let's take a point here that's at minus 2, that's the middle of the red dot

X is equal to minus 2 And because y is equal to x2 , if we want to get the y value, all we got to do is take that negative 2 and square it and that gives us 4 So that's pretty easy So the coordinates for that red point are minus 2 on x, and plus 4 on the y Here's a harder question

"What is the slope of the curve at that exact point?" Well, it's actually a little tricky because the curve is always curving there's no flat part on it But we can get the answer by getting the derivative of the function Now, there are several different ways of writing this, I am using the one that's easiest to type And let's start by this, what we are going to do is the n here and that is the squared part, so that we have x2 And you see that same n turns into the squared, and then we come over here and we put that same value 2 in right there, and we put the two in right 이리

And then we can do a little bit of subtraction 2 minus 1 is 1 and truthfully you can just ignore that then then you get 2x That is the derivative, so what we have here is the derivative of x2 is 2x That means, the slope at any given point in the curve is 2x 그래서, let's go back to the curve we had a moment ago

Here's our curve, here's our point at x minus 2, and so the slope is equal to 2x, well we put in the minus 2, and we multiply it and we get minus 4 So that is the slope at this exact point in the curve 좋아 뭐라구? if we choose a different point? Let's say we came over here to x is equal to 3? 잘, the slope is equal to 2x so that's 2 times 3, is equal to 6 Great! And on the other hand, you might be saying to yourself "And why do I care about this?" There's a reason that this is important and what it is, is that you can use these procedures to optimize the decisions

And if that seems a little to abstract to you, that means you can use them to make more money And I'm going to demonstrate that in the next video But for right now in sum, let's say this Calculus is vital to practical data science, it's the foundation of statistics and it forms the core that's needed for doing optimization In our discussion about Mathematics and data science foundations, the last thing I want to talk about right here is calculus and how it relates to optimization

나는 생각하고 싶어한다 of this, in other words, as the place where math meets reality, or it meets Manhattan 또는 뭔가 Now if you remember this graph I made in the last video, y is equal to x2, that shows this curve here and we have the derivative that the slope can be given by 2x And so when x is equal to 3, the slope is equal to 6, fine And this is where this comes into play

Calculus makes it possible to find values that maximize or minimize outcomes And if you want to think of something a little more concrete here, let's think of an example, by the way that's Cupid and Psyche Let's talk about pricing for online dating 하자 assume you've created a dating service and you want to figure out how much can you charge for it that will maximize your revenue So, let's get a few hypothetical parameters involved

First off, let's say that subscriptions, annual subscriptions cost $50000 each year and you can charge that for a dating service And let's say you sell 180 new subscriptions every 주 On the other hand, based on your previous experience manipulating prices around, you have some data that suggests that for each $5 you discount from the price of $50000 you will get 3 more sales

Also, because its an online service, lets make our life a little more easier right now and assume there is no increase in overhead It's not really how it works, but we'll do it for now And I'm actually going to show you how to do all this 손으로 Now, let's go back to price first We have this

$50000 is the current annual subscription price and you're going to subtract $500 for each unit of discount, that's why I'm giving D So, one discount is $500, two discounts is $10

00 and so on 그리고 우리는 have a little bit of data about sales, that you're currently selling 180 subscriptions per week and that you will add 3 more for each unit of discount that you give So, what we're going to do here is we are going to find sales as a function of price 자, ~에 do that the first thing we have to do is get the y intercept So we have price here, is $500

00, is the current annual subscription price minus $5 times d And what we are going to do is, is we are going to get the y intercept by solving when does this equal zero? 괜찮아, well we take the $500 we subtract that from both sides and then we end up with minus $5d is equal to minus $50000 Divide both sides by minus $5 and we are left with d is equal to 100 That is, when d is equal to 100, x is 0

And that tells us how we can get the y intercept, but to get that we have to substitute this value into sales So we take d is equal to 100, and the intercept is equal to 180 plus 3; 180 is the number of new subscriptions per week and then we take the three and we multiply that times our 100 So, 180 times 3 times 100,[1] is equal to 300 add those together and you get 480 And that is the y intercept in our equation, so when we've discounted sort of price to zero then the expected sale is 480 Of course that's not going to happen in reality, but it's necessary for finding the slope of the line

So now let's get the slope The slope is equal to the change in y on the y axis divided by the change in x One way we can get this is by looking at sales; we get our 180 new subscriptions per week plus 3 for each unit of discount and we take our information on price $50000 a year minus $5

00 for each unit of discount and then we take the 3d and the $5d and those will give us the slope So it's plus 3 divided by minus 5, and that's just minus 06 So that is the slope of the line Slope is equal to minus 0

6 And so what we have from this is sales as a function of price where sales is equal to 480 because that is the y intercept when price is equal to zero minus 06 times 가격 So, this isn't the final thing Now what we have to do, we turn this into revenue, there's another stage to this

Revenue is equal to sales times price, how many things did you sell and how much did it cost Well, we can substitute some information in here If we take sales and we put it in as a function of price, because we just calculated that a moment ago, then we do a little bit of multiplication and then we get that revenue is equal to 480 times the price minus 06 times the price Okay, that's a lot of stuff going on there

What we're going to do now is we're going to get the derivative, that's the calculus 우리가 얘기 했어 Well, the derivative of 480 and the price, where price is sort of the x, the derivative is simply 480 and the minus 06 times price? Well, that's similar to what we did with the curve And what we end up with is 06 times 2 is equal to 1

2 times the price This is the derivative of the original equation We can solve that for zero now, and just in case you are wondering Why do we solve it for zero? 그 때문에 is going to give us the place when y is at a maximum Now we had a minus squared so we have to invert the shape

When we are trying to look for this value right here when it's at the very tippy top of the curve, because that will indicate maximum revenue 괜찮아, so what we're going to do is solve for zero Let's go back to our equation here We want to find out when is that equal to zero? Well, we subtract 480 from each side, there we go and we divide by minus 12 on each side

And this is our price for maximum revenue 그래서 we've been charging $50000 a week, but this says we'll have more total income if we charge $40000 instead And if you want to find out how many sales we can get, currently we have 480 and if you want to know what the sales volume is going to be for that

Well, you take the 480 which is the hypothetical y intercept when the price is zero, but then we put in our actual price of $40000, multiply that, we get 240, do the subtraction and we get 240 total So, that would be 240 new subscriptions per week So let's compare this Current revenue, is 180 new subscriptions per week at $500

00 per year And that means our current revenue is $90,00000 per year, I know it sounds really good, but we can do better than that 때문에 the formula for maximum value is 240 times $40000, when you multiply those you get $96,000

00 And so the improvement is just a ratio of those two $96,00000 divided by $90,00000 is equal to 1

07 And what that means is a 7% increase and anybody would be thrilled to get a 7% increase in their business simply by changing the price and increasing the overall revenue So, let's summarize what we found here If you lower the cost by 20%, go from $50000 year to $400

00 per year, assuming all of our other information is correct, then you can increase sales by 33%; that's more than the 20 that you had and that increases total revenue by 7% And so we can optimize the price to get the maximum total revenue and it has to do with that little bit of calculus and the derivative of the function 그래서 sum, calculus can be used to find the minima and maxima of functions including prices It allows for optimization and that in turn allows you to make better business decisions Our next topic in "Mathematics and Data Principals", is something called Big O

And if you are wondering what Big O is all about, it is about time Or, you can think of it as how long does it take to do a particular operation It's the speed of the operation 네가 원한다면 to be really precise, the growth rate of a function; how much more it requires as you add elements is called its Order That's why it's called Big O, that's for Order

And Big O gives the rate of how things grow as the number of elements grows, and what's funny is there can be really surprising differences Let me show you how it works with a few different kinds of growth rates or Big O First off, there's the ones that I say are sort of one the spot, you can get stuff done right away The simplest one is O1, and that is a constant 주문 That's something that takes the same amount of time, no matter what

You can send an email out to 10,000 people just hit one button; 끝났다 The number of elements, the number of people, the number of operations, it just takes the same amount of time 쪽으로 from that is Logarithmic, where you take the number of operations, you get the logarithm of that and you can see it's increased, but really it's only a small increase, it tapers off really quickly So an example is finding an item in a sorted rate 별로 중요하지 않습니다

Next, one up from that, now this looks like a big change, but in the grand scheme, it's not a big change This is a linear function, where each operation takes the same unit of 시각 So if you have 50 operations, you have 50 units of time If you're storing 50 objects it takes 50 units of space So, find an item in an unsorted list it's usually going to be linear time

Then we have the functions where I say you know, you'd better just pack a lunch because it's going to take a while The best example of this is called Log Linear You take the number of items and you multiply that number times the log of the items 안 example of this is called a fast Fourier transform, which is used for dealing for instance with sound or anything that sort of is over time You can see it takes a lot longer, if you have 30 elements your way up there at the top of this particular chart at 100 units of time, or 100 units of space or whatever you want to put it

And it looks like a lot But really, that's nothing compared to the next set where I say, you know you're just going to be camping out you may as well go home That includes something like the Quadratic You square the number of elements, you see how that kind of just shoots straight up That's Quadratic growth

And so multiplying two n-digit numbers, if you're multiplying two numbers that have 10 digit numbers it's going to take you that long, it's going to 오래 걸린다 Even more extreme is this one, this is the exponential, two raised to the power to the number of items you have You'll see, by the way, the red line does not even go all the way to the top That's because the graphing software that I'm using, doesn't draw it when it goes above my upper limit there, so it kind of cuts it off 그러나 this is a really demanding kind of thing, it's for instance finding an exact solution for what's called the Travelling Salesman Problem, using dynamic programming

그게 an example of exponential rate of growth And then one more I want to mention which is sort of catastrophic is Factorial You take the number of elements and you raise that to the exclamation point Factorial, and you see that one cuts off very soon because it basically goes straight up You have any number of elements of any size, it's going to be hugely demanding And for instance if you're familiar with the Travelling Salesman Problem, that's trying to find the solution through the brute force search, it takes a huge amount of time

And you know before something like that is done, you're probably going to turn to stone and wish you'd never even started The other thing to know about this, is that not only do something's take longer than others, some of these methods and some functions are more variable than others So for instance, if you're working with data that you want to sort, there are different kinds of sort or sorting methods So for instance, there is something called an insertion sort And when you find this on its best day, it's linear

It's O of n, that's not bad On the other hand the average is Quadratic and that's a huge difference between the two Selection sorts on the other hand, the best is quadratic and the average is quadratic It's always consistent, so it's kind of funny, it takes a long time, but at least you know how long it's going to take versus the variability of something like an insertion sort So in sum, let me say a few things about Big O

#1, You need to know that certain functions or procedures vary in speed, and the same thing applies to making demands on a computer's memory or storage space or whatever 그들 vary in their demands Also, some are inconsistent Some are really efficient sometimes and really slow or difficult the others Probably the most important thing here is to be aware of the demands of what you are doing

That you can't, for instance, run through every single possible solution or you know, your company will be dead before you get an answer 그래서 be mindful of that so you can use your time well and get the insight you need, in the time that you need it A really important element of the "Mathematics and Data Science" and one of its foundational principles is Probability Now, one of the things that Probability comes in intuitively for a lot of people is something like rolling dice or looking at sports outcomes And really the fundamental question of what are the odds of something

That gets at the heart of Probability Now let's take a look at some of the basic principles We've got our friend, Albert Einstein here to explain things The Principles of Probability work this way Probabilities range from zero to 1, that's like zero percent to one hundred percent chance

When you put P, then in parenthesis here A, that means the Probability of whatever is in parenthesis So P(A), means the Probability of A and then P(B) is the Probability of B When you take all of the probabilities together, you get what is called the probability 공간 And that's why we have S and that all adds up to 1, because you've now covered 100 % of the possibilities

Also you can talk about the compliment The tilde here is used to say the probability of not A is equal to 1 minus the probability of A, because those have to add up So, let's take a look at something also that conditional probabilities, which is really important in statistics A conditional probability is the probability that something if something else is true You write it this way: the probability of, and that vertical line is called a Pipe and it's read as assuming that or given that

So you can read this as the probability of A given B, is the probability of A occurring if B is true So you can say for instance, what's the probability if something's orange, what's the probability that it's a caret given this picture Now, the place that this comes in really important for a lot of people is the probability of type one and type two errors in hypothesis testing, which we'll mention at some other point But I do want to say something about arithmetic with probabilities because it does not always work out the way people think it will 시작하자 by talking about adding probabilities

Let's say you have two events A and B, and let's say you want to find the probabilities of either one of those events So that's like adding the probabilities of the two events Well, it's kind of easy You take the probability of event A and you add the probability of event B, however you may have to subtract something, you may have to subtract this little piece because maybe there are some overlap 그 둘 사이에 On the other hand if A and B are disjoined, meaning they never occur together, then that's equal to zero

And then you can subtract zero which is just, you get back to the original probabilities Let's take a really easy example of this I've created my super simple sample space I have 10 shapes I have 5 squares on top, 5 circles on the bottom and I've got a couple of red shapes on the right side 의 말을하자 we want to find the probability of a square or a red shape

So we are adding the probabilities but we have to adjust for the overlap between the two Well here's our squares on top 5 out of the 10 are squares and over here on the right we have two red shapes, two out of 10 Let's go back to our formula here and let's change a little bit Change the A and the B to S and R for square and red

Now we can start this way, let's get the probability that something is a square Well, we go back to our probability space and you see we have 5 squares out of 10 shapes total So we do 5 over 10, that reduces to 5 Okay, next up the probability of something red in our sample space

Well, we have 10 shapes total, two of them on the far right are red That's two over 10, and you do the division get2 Now, the trick is the overlap between these two categories, do we have anything that is both square and red, because we don't want to count that twice we have to subtract it Let's go back to our sample space and we are looking for something that is square, there's the squares on top and there's the things that are red on the side

And you see they overlap and this is our little overlapping square So there's one shape that meets both of those, one out of 10 So we come back here, one out of 10, that reduces to 1 and then we just do the addition and subtraction here5 plus 2 minus 1, gets us 6 And so what that means is, there is a 60% chance of an object being square or red

And you can look at it right here We have 6 shapes outlined now and so that's the visual interpretation that lines up with the mathematical one we just did Now let's talk about multiplication for Probabilities Now the idea here is you want to get joint probabilities, so the probability of two things occurring together, simultaneously And what you need to do here, is you need to multiply the probabilities

And we can say the probability of A and B, because we are asking about A and B occurring together, a joint occurrence And that's equal to the probability of A times the probability of B, that's easy But you do have to expand it just a little bit because you can have the problem of things overlapping a little bit, and so you actually need to expand it to a conditional probability, the probability of B given A Again, that's that vertical pipe there On the other hand, if A and B are independent and they never co-occur, or B is no more likely to occur if A happens, then it just reduces to the probability of B, then you get your slightly simpler equation

But let's go and take a look at our sample space here So we've got our 10 shapes, 5 of each kind, and then two that are red And we are going to look at originally, the probability of something being square or red, now we are going to look at the probability of it being square and red Now, I know we can eyeball this one real easy, but let's run through the math The first thing we need to do, is get the ones that are square

There's those 5 on the top and the ones that are red, and there's those two on the right In terms of the ones that are both square and red, yes obviously there's just this one red square at the top right But let's do the numbers here We change our formula to be S and R for square and red, we get the probability of square Again that's those 5 out of 10, so we do 5/10, reduce this to

5 And then we need the probability of red given that it's a square So, we only need to look at the squares here There's the squares, 5 of them, and one of them is red So that's 1 over 5

That reduces to 2 You multiply those two numbers; 5 times 2, and what you get is

10 or 10% chance or 10 percent of our total sample space is red squares And you come back and you look at it and you say yeah there's one out of 10 So, that just confirms what we are able to do intuitively So, that's our short presentation on probabilities and in sum what did we get out of that? #1, Probability is not always intuitive And also the idea that conditional values can help in a lot of situations, but they may not work the way you expect them to

And really the arithmetic of Probability can surprise people so pay attention when you are working with it so you can get a more accurate conclusion in your own calculations Let's finish our discussion of "Mathematics and Data Science" and the basic principles by looking at something called Bayes' theorem And if you're familiar with regular probability and influential testing, you can think of Bayes' theorem as the flip side of the coin You can also think of it in terms of intersections So for instance, standard inferential tests and calculations give you the probability of the data; that's our d, given the hypothesis

So, if you assume a known hypothesis is true, this will give you the probability of the data arising by chance The trick is, most people actually want the opposite of that They want the probability of the hypothesis given the data And unfortunately, those two things can be very different in many circumstances On the other hand, there's a way of dealing with it, Bayes does it and this is our guy right here

Reverend Thomas Bayes, 18th Century English minister and statistician He developed a method for getting what he called posterior probabilities that use as prior probabilities And test information or something like base rates, how common something overall to get the posterior or after the fact Probability Here's the general recipe to how this works: You start with the probability of the data given the hypothesis which is what you get from the likelihood of the data You also get that from a standard inferential 테스트

To that, you need to add the probability to the hypothesis or the cause of being true That's called the prior or the prior probability To that you add the D; the probability of the data, that's called the marginal probability And then you combine those and in a special way to get the probability of the hypothesis given the data or the posterior probability Now, if you want to write it as an equation, you can write it in words like this; 후부 is equal to likelihood times prior divided by marginal

You can also write it in symbols like this; the probability of H given D, the probability of the hypothesis given the data, that's the posterior probability Is equal to the probability of the data given the hypothesis, that the likelihood, multiplied by the probability of the hypothesis and divided by probability of the data overall But this is a lot easier if we look at a visual version of it 그래서, let's go this example here Let's say we have a square here that represents 100% of all people and we are looking at a medical condition

And what we are going to say here is that we got this group up here that represents people who have a disease, so that's a portion of all people And that what we say, is we have a test and people with the disease, 90% of them will test positive, so they're marked in red Now it does mean over here on the far left people with the disease who test negative that's 10% Those are our false negatives And so if the test catches 90% of the people who have the disease, that's good right? 잘, let's look at it this way

Let me ask y0u a basic question "If a person tests positive for a disease, then what is the probability they really have the disease?" And if you want a hint, I'm going to give you one It's not 90%, Here's how it goes 그래서 이것은 information I gave you before and we've got 90% of the people who have the disease; 그거야

a conditional probability, they test positive But what about the other people, the people in the big white area below, 'of all people' We need to look at them and if any of them ever test positive, do we ever get false positives and with any test you are going to get false positives And so let's say our people without the disease, 90% of them test negative, the way they should But of the people who don't have the disease, 10% of them test positive, those are false positives

And so if you really want to answer the question, "If you test positive do you have the disease?", here's what you need What you need is the number of people with the disease who test positive divided by all people who test positive 하자 look at it this way So here's our information We've got 29

7% of all people are in this darker red box, those are the people who have the disease and test positive, alright that's 좋은 Then we have 67% of the entire group, that's the people without the disease who test positive So we want to do, we want the probability of the disease what percentage have the disease and test positive and then divide that by all the people that test positive And that bottom part is made up of two things

That's made up of the people who have the disease and test positive, and the people who don't have the disease and test positive Now we can take our numbers and start plugging them in Those who have the disease and test positive that's 297% of the total population of everybody We can also put that number 바로 여기에

That's fine, but we also need to look at the percentage that do not have the disease and test positive; of the total population, that's 67% So, we just need to rearrange, we add those two numbers on the bottom, we get 364% and we do a little bit of division And the number we get is 81

6%, here's what that means A positive test result still only means a probability of 816% of having the disease So, the test is advertised at having 90% accuracy, well if you test positive there's really only a 82% chance you have the disease Now that's not really a big difference

But consider this: what if the numbers change? For instance, what if the probability of the disease changes? Here's what we originally had Let's move it around a little bit Let's make the disease much less common And so now what we do, we are going to have 45% of all people are people who have the disease and test positive

And then because there is a larger number of people who don't have the disease, we are going to have a relatively larger proportion of false positives Again, compared to the entire population it's going to be 95% of everybody 그래서 우리는 are going to go back to our formula here in words and start plugging in the numbers 우리 get 4

5% right there, and right there And then we add in our other number, the false positives that's 95% Well, we rearrange and we start adding things up, that's 14% and when we divide that, we get 321%

Here's what that number means That means a positive test result; you get a positive test result, now means you only have a probability of 321% of having the disease That's ? less than the accuracy of 90%, and in case you can't tell, that's a really big difference And that's why Bayes theorem matters, because it answers the questions that people want and the answer can be dramatically different depending on the base rate of the thing you are talking about

And so in sum, we can say 이 Bayes theorem allows you to answer the right question, people really want to know; what's the probability that I have the disease What's the probability of getting a positive if I have the disease They want to know whether they have the disease And to do this, you need to have prior probabilities, you need to know how common the disease is, you need to know how many people get positive test results overall

But, if you can get that information and run them through it can change your answers and really the emotional significance of what you're dealing with dramatically Let's wrap up some of our discussion of "Mathematics and Data Science" and the data principles and talk about some of the next steps Things you can do afterwards Probably the most important thing is, you may have learned about math a long time ago but now it's a good time to dig out some of those books and go over some of the principles you've used before The idea here is that a little math can go a long way in data science

So, things like Algebra and things like Calculus and things like Big O and Probability All of those are important in data science and its helpful to have at least a working understanding of each You don't have to know everything, but you do need to understand the principles of your procedures that you select when you do your 프로젝트 There are two reasons for that very generally speaking First, you need to know if a procedure will actually answer your question

Does it give you the outcome that you need? Will it give you the insight that you need? Second; really critical, you need to know what to do when things go wrong Things don't always work out, numbers don't always add up, you got impossible results or things just aren't responding You need to know enough about the procedure and enough about the mathematics behind it, so you can diagnose the problem, and respond appropriately And to repeat myself once again, no matter what you're working on in data science, no matter what tool you're using, what procedure you're doing, focus on your goal And in case you can't remember that, your goal is meaning

Your goal is always meaning Welcome to "Statistics in Data Science" I'm Barton Poulson and what we are going to be doing in this course is talking about some of the ways you can use statistics to see the unseen To infer what's there, even when most of it's hidden Now this shouldn't be surprised

If you remember the data science Venn Diagram we talked about a while ago, we have math up here at the top right corner, but if you were to go to the original description of this Venn Diagram, it's full name was math and stats And let me just mention something in case it's not completely obvious about why statistics matters to data science 과 the idea is this; counting is easy It's easy to say how many times a word appears in a document, it's easy to say how many people voted for a particular candidate in one part of the country Counting is easy, but summarizing and generalizing those things hard

And part of the problem is there's no such thing as a definitive analysis All analyses really, depend on the purposes that you're dealing with So as an example, let me give you a couple of pairs of words and try to summarize the difference between them in just two or three words In a word or two, how is a souffle different from a quiche, or how is an Aspen different from a Pine tree? Or how is Baseball different from Cricket? And how are musicals different from opera? It really depends on who you are talking to, it depends on your goals and it depends on the shared knowledge And so, there's not a single definitive answer, and then there's the matter of generalization

Think about it again, take music Listen to three concerti by Antonio Vivaldi, and do you think you can safely and accurately describe all of his music? Now, I actually chose Vivaldi on purpose because even Igor Stravinsky said you could, he said he didn't write 500 concertos he wrote the same concerto 500 times 그러나, take something more real world like politics If you talk to 400 registered voters in the US, can you then accurately predict the behavior of all of the voters? There's about 100 million voters in the US, and that's a matter of generalization That's the sort of thing we try to take care of with inferential statistics

Now there are different methods that you can use in statistics and all of them are described to give you a map; a description of the data you're working on There are descriptive statistics, there are inferential statistics, there's the inferential procedure Hypothesis testing and there's also estimation and I'll talk about each of those in more depth There are a lot of choices that have to be made and some of the things I'm going to discuss in detail are for instance the choice of Estimators, that's different from estimation Different measures of fit Feature selection, for knowing which variables are the most important in predicting your outcome

Also common problems that arise when trying to model data and the principles of model validation But through this all, the most important thing to remember is that analysis is functional It's designed to serve a particular purpose And there's a very wonderful quote within the statistics world that says all models are wrong All statistical descriptions of reality are wrong, because they are not exact depictions, they are summaries but some are useful and that's from George Box

And so the question is, you're not trying to be totally, completely accurate, because in that case you just wouldn't do an analysis The real question is, are you better off not doing your analysis than not doing it? And truthfully, I bet you are 그래서 in sum, we can say three things: #1, you want to use statistics to both summarize your data and to generalize from one group to another if you can On the other hand, there is no "one true answer" with data, you got to be flexible in terms of what your goals are and the shared knowledge And no matter what your doing, the utility of your analysis should guide you in your decisions

The first thing we want to cover in "Statistics in Data Science" is the principles of exploring data and this video is just designed to give an exploration overview So we like to think of it like this, the intrepid explorers, they're out there exploring and seeing what's in the world You can see what's in your data, more specifically you want to see what your dataset is like You want to see if your assumptions are right so you can do a valid analysis with your procedure Something that may sound very weird, but you want to listen to your data

Something's not work out, if it's not going the way you want, then you're going to have to pay attention and exploratory data analysis is going to help you do that Now, there are two general approaches to this First off, there's a graphical exploration, so you use graphs and pictures and visualizations to explore your data 그만큼 reason you want to do this is that graphics are very dense in information They're also really good, in fact the best to get the overall impression of your data

Second to that, there is numerical exploration I make it very clear, this is the second step Do the visualization first, then do the numerical part Now you want to do this, because this can give greater precision, this is also an opportunity to try variations on the data You can actually do some transformations, move things around a little bit and try different methods and see how that effects the results, see how it looks

So, let's go first to the graphical 부품 They are very quick and simple plots that you can do Those include things like bar charts, histograms and scatterplots, very easy to make and a very quick way to getting to understand the variables in your dataset In terms of numerical analysis; again after the graphical method, you can do things like transform the data, that is take like the logarithm of your numbers You can do Empirical estimates of population numbers, and you can use robust methods

And I'll talk about all of those at length in later videos But for right now, I can sum it up this way The purpose of exploration is to help you get to know 귀하의 데이터 And also you want to explore your data thoroughly before you start modelling, before you build statistical models And all the way through you want to make sure you listen carefully so that you can find hidden or unassumed details and leads in your data

As we move in our discussion of "Statistics and Exploring Data", the single most important thing we can do is Exploratory Graphics In the words of the late great Yankees catcher Yogi Berra, "You can see a lot by just looking" And that applies to data as much as it applies to baseball Now, there's a few reasons you want to start with graphics #1, is to actually get a feel for the data

I mean, what's it distributed like, what's the shape, are there strange things going on Also it allows you to check the assumptions and see how well your data match the requirements of the analytical procedures you hope to use You can check for anomalies like outliers and unusual distributions and errors and also you can get suggestions If something unusual is happening in the data, that might be a clue that you need to pursue a different angle or do a deeper analysis Now we want to do graphics first for a couple of reasons

#1, is they are very information dense, and fundamentally humans are visual It's our single, highest bandwidth way of getting information It's also the best way to check for shape and gaps and outliers There's a few ways that you can do this if you want to and the first is with programs that rely on code So you can use the statistical programming language R, the general purpose language Python

You can actually do a huge amount in JavaScript, especially D3JS Or you can use Apps, that are specifically designed for exploratory analysis, that includes Tableau both the desktop and public versions, Qlik and even Excel is a good way to do this And finally you can do this by hand John Tukey who's the father of Exploratory Data Analysis, wrote his seminal book, a wonderful book where it's all hand graphics and actually it's a wonderful way to do it But let's start the process for doing these graphics

We start with one variable That is univariate distributions And so you'll get something like this, the fundamental chart is the bar chart 이것은 when you are dealing with categories and you are simply counting however many cases there are in each category The nice thing about bar charts is they are really easy to read

Put them in descending order and may be have them vertical, maybe have them horizontal Horizontal could be nice to make the labels a little easier to read This is about psychological profiles of the United States, this is real data We have most states in the friendly and conventional, a smaller amount in the temperamental and uninhibited and the least common of the United States is relaxed and creative Next you can do a Box plot, or sometimes called a box and whiskers plot

This is when you have a quantitative variable, something that's measured and you can say how far apart scores are A box plot shows quartile values, it also shows outliers So for instance this is google searches for modern dance 그게 Utah at 5 standard deviations above the national average That's where I'm from and I'm glad to see that there

Also, it's a nice way to show many variables side by side, if they are on proximately similar scales Next, if you have quantitative variables, you are going to want to do a histogram Again, quantitative so interval or ratio level, or measured variables And these let you see the shape of a distribution and potentially compare many So, here are three histograms of google searches on Data Science, and Entrepreneur and Modern Dance

And you can see, mostly for the part normally distributed with a couple of outliers 일단 you've done one variable, or the univariate analyses, you're going to want to do two variables 한 번에 That is bivariate distributions or joint distributions Now, one easy way to do this is with grouped plots You can do grouped bar charts and box plots

뭐 I have here is grouped box plots I have my three regions, Psychological Regions of the United States and I'm showing how they rank on openness that's a psychological characteristic As you can see, the relaxed and creative are high and the friendly conventional tend to go to the lowest and that's kind of how that works It's also a good way of seeing the association between a categorical variable like region of the United States psychologically, and a quantitative outcome, which is what we have here with openness Next, you can also do a Scatterplot

That's where you have quantitative variables and what you're looking for here is, is it a straight line? Is it linear? Do we have outliers? 그리고 또한 strength of association How closely do the dots all come to the regression line that we have here in the middle And this is an interesting one for me because we have openness across the bottom, so more open as you go to the right and agreeableness And what you can see is there is a strong downhill association The states and the states that are the most open are also the least agreeable, so we're going to have to do something about that

And then finally, you're going to want to go to many variables, that is multivariate distributions Now, one big question here is 3D or not 3D? Let me make an argument for not 3D So, what I have here is a 3D Scatterplot about 3 variables from Google searches 쪽으로 the left, I have FIFA which is for professional soccer Down there on the bottom left, I have searches for the NFL and on the right I have searches for NBA

Now, I did this in R and what's neat about this is you can click and drag and move it around And you know that's kind of fun, you kind of spin around and it gets kind of nauseating as you look at it And this particular version, I'm using plotly in R, allows you to actually click on a point and see, let me see if I can get the floor in the right place You can click on a point and see where it ranks on each of these characteristics You can see however, this thing is hard to control and once it stops moving, it's not much fun and truthfully most 3D plots I've worked with are just kind of nightmares

They seem like they're a good idea, but not really So, here's the deal 3D graphics, like the one I just showed you, because they are actually being shown in 2D, they have to be in motion for you to tell what is going on at all 과 fundamentally they are hard to read and confusing Now it's true, they might be useful for finding clusters in 3 dimensions, we didn't see that in the data we had, but generally I just avoid them like the plague

What you do want to do however, is see the connection between the variables, you might want to use a matrix of plots This is where you have for instance many quantitative variables, you can use markers for group membership if you want, and I find it to be much clearer than 3D So here, I have the relationship between 4 search terms: NBA, NFL, MLB for Major League Baseball and FIFA You can see the individual distributions, you can see the scatterplots, you can get the correlation Truthfully for me this is a much easier chart to read and you can get the richness that we need, from a multidimensional 디스플레이

So the questions you're trying to answer overall are: Number 1, Do you have what you need? Do you have the variables that you need, do you have the ability that you need? Are there clumps or gaps in the distributions? Are there exceptional cases/anomalies that are really far out from everybody else, spikes in the scores? And of course are there errors in the data? Are there mistakes in coding, did people forget to answer questions? 아르 there impossible combinations? And these kinds of things are easiest to see with a visualization that really kind of puts it there in front of you And so in sum, I can say this about graphical exploration of data It's a critical first step, it's basically where you always want to start And you want to use the quick and easy methods, again Bar charts, scatter plots are really easy to make and they're very easy to understand

And once you're done with the graphical exploration, then you can go to the second step, which is exploring the data through numbers The next step in "Statistics and Exploring Data" is exploratory statistics or numerical exploration of data I like to think of this, as go in order 먼저, you do visualization, then you do the numerical part And a couple of things to remember here

#1, you are still exploring the data You're not modeling yet, but you are doing a quantitative exploration This might be an opportunity to get empirical estimates, that is of population parameters as opposed to theoretically based ones It's a good time to manipulate the data and explore the effect of manipulating the data, looking at subgroups, looking at transforming 변수 Also, it's an opportunity to check the sensitivity of your results

Do you get the same general results if you test under different circumstances So we are going to talk about things like Robust Statistics, resampling data and transforming data 그래서, we'll start with Robust Statistics This by the way is Hercules, a Robust mythical character And the idea with robust statistics is that they are stable, is that even when the data varies in unpredictable ways you still get the same general impression

This is a class of statistics, it's an entire category, that's less affected by outliers, and skewness, kurtosis and other abnormalities in the data So let's take a quick look This is a very skewed distribution that I created The median, which is the dark line in the box, is right around one 과 I am going to look at two different kinds of robust statistics, The Trimmed Mean and the Winsorized Mean

With the Trimmed mean, you take a certain percentage of data from the top and the bottom and you just throw it away and compute for the rest 와 더불어 Winsorized, you take those and you move those scores into the highest non-outlier score Now the 0% is exactly the same as the regular mean and here it's 124, but as we trim off or move in 5%, the mean shifts a little bit Then 10 % it comes in a little bit more to 25%, now we are throwing away 50% of our data

25% on the top and 25% on the bottom 과 we get a trimmed mean of 103 and a winsorized of 107 When we throw away 50% or we trim 50%, that actually means we are leaving just the median, only the middle scores left

그때 we get 101 What's interesting is how close we get to that, even when we have 50% of the data left, and so that's an interesting example of how you can use robust statistics to explore data, even when you have things like strong skewness Next is the principle of resampling And that's like pulling marbles repeatedly from the jar, counting the colors, putting them back in and trying again

That's an empirical estimate of sampling variability So, sometimes you get 20% red marbles, sometimes you get 30, sometimes you get 22 and so on 그곳에 are several versions for this, they go by the name jackknife, the bootstrap the permutation And the basic principle of resampling is also key to the process of cross-validation, I'll have more to say about validation later And then finally there's transforming variables

Here's our caterpillars in the process of transforming into butterflies But the idea here, is that you take a difficult data set and then you do what's called a smooth function There's no jumps in it, and something that allows you to preserve the order and work on the full dataset So you can fix skewed data, and in a scatter plot you might have a curved line, you can fix that And probably the best way to look at this is probably with something called Tukey's ladder of powers

I mentioned before John Tukey, the father of exploratory data analysis He talked a lot about data transformations This is his ladder, starting at the bottom with the -1, over x2, up to the top with x3 Here's how it works, this distribution over here is a symmetrical normally distributed variable, and as you start to move in one direction and you apply the transformation, take the square root you see how it moves the distribution over to one end Then the logarithm, then you get to the end then you get to this minus 1 over the square of the score

And that pushes it way way, way over If you go the other direction, for instance you square the score, it pushes it down in the one direction and then you cube it and then you see how it can move it around in ways that allow you to, you can actually undo the skewness to get back to a more centrally distributed distribution And so these are some of the approaches that you can use in the numerical distribution of data In sum, let's say this: statistical or numerical exploration allows you to get multiple perspectives on your data It also allows you to check the stability, see how it works with outliers, and skewness and mixed distributions and so on

And perhaps most important it sets the stage for the statistical modelling of your data As a final step of "Statistics and Exploring Data", I'm going to talk about something that's not usually exploring data but it is basic descriptive 통계 I like to think of it this way You've got some data, and you are trying to tell a story More specifically, you're trying to tell your data's story

And with descriptive statistics, you can think of it as trying to use a little data to stand in for a lot of data Using a few numbers to stand in for a large collection of numbers 그리고 이건 consistent with the advice we get from good ole Henry David Thoreau, who told us Simplify, Simplify If you can tell your story with more carefully chosen and more informative data, go for it So there's a few different procedures for doing this

#1, you'll want to describe the center of your distribution of data, that is if you're going to choose a single number, use that # 2, if you can give a second number give something about the spread or the dispersion of the variability And #3, give something about the shape of the distribution Let me say more about each of these in turn First, let's talk about 센터

We have the center of our rings here Now there are a few very common measure of center or location or central tendency of a distribution There's the mode, the median and there's the mean Now, there are many, many others but those are the ones that are going to get you most of the way Let's talk about the mode first

Now, I'm going to create a little dataset here on a scale from 1 to 11, and I'm going to put individual scores There's a one, and another one, and another one and another one Then we have a two, two, then we have a score way over at 9 and another score over at 11 So we have 8 scores, and this is the distribution This is actually a histogram of the dataset

The mode is the most commonly occurring score or the most frequent score Well, if you look at how tall each of these go, we have more ones than anything else, and so one is the mode Because it occurs 4 times and nothing else comes close to that The median is a little different The median is looking for the score that is at the center if you split it into two equal groups

우리 have 8 scores, so we have to get one group of 4, that's down here, and the other group of four, this really big one because it's way out and the median is going to be the place on the number line that splits those into two groups That's going to be right here at one and a half Now the mean is going to be a little more complicated, even though people understand means in general It's the first one here that actually has a formula, where M for the mean is equal to the sum of X (that's our scores on the variable), divided by N (the number of scores) You can also write it out with Greek notation if you want, like this where that's sigma – a capital sigma is the summation sign, sum of X divided by N

And with our little dataset, that works out to this: one plus one plus one plus one plus two plus two plus nine plus eleven Add those all up and divide by 8, because that's how many scores there are Well that reduces to 28 divided by 8, which is equal to 35 If you go back to our little chart here, 3

5 is right over here You'll notice there aren't any scores really exactly right there That's because the mean tends to get very distorted by its outliers, it follows the extreme scores But a really nice, I say it's more than just a visual analogy, is that if this number were a sea saw, then the mean is exactly where the balance point or the fulcrum would be for these to be equal People understand that

If somebody weighs more they got to sit in closer to balance someone who less, who has to sit further out, and that's how the mean works Now, let me give a bit of the pros and cons of each of these Mode is easy to do, you just count how common it is 에 other hand, it may not be close to what appears to be the center of the data The Median it splits the data into two same size groups, the same number of scores in each and that's pretty easy to deal with but unfortunately, it's pretty hard to use that information in any statistics after that

And finally the mean, of these three it's the least intuitive, it's the most effective by outliers and skewness and that really may strike against it, but it is the most useful statistically and so it's the one that gets used most often 다음 것, there's the issue of spread, spread your tail feathers And we have a few measures here that are pretty common also There's the range, there are percentiles and interquartile range and there's variance and standard deviation I'll talk about each of those

First the Range The Range is simply the maximum score minus the minimum score, and in our case that's 11 minus 1, which is equal to 10, so we have a range of 10 I can show you that on our 차트 It's just that line on the bottom from the 11 down to the one That's a range of 10

The interquartile range which is actually usually referred to simply as the IQR is the distance between the Q3; which is the third quartile score and Q1; which is the first quartile score If you're not familiar with quartiles, it's the same the 75th percentile score and the 25th percentile score Really what it is, is you're going to throw away some of the some of the data So let's go to our distribution here First thing we are going to do, we are going to throw away the two highest scores, there they are, they're greyed out now, and then we are going to throw away two of the lowest scores, they're out 그곳에

Then we are going to get the range for the remaining ones Now, this is complicated by the fact that I have this big gap between 2 and 9, and different methods of calculating quartiles do something with that gap So if you use a spreadsheet it's actually going to do an interpolation process and it will give you a value of 375, I believe 그리고 down to one for the first quartile, so not so intuitive with this graph but that it is how it works usually

If you want to write it out, you can do it like this The interquartile range is equal to Q3 minus Q1, and in our particular case that's 375 minus 1 And that of course is equal to just 275 and there you have it

Now our final measure of spread or variability or dispersion, is two related measures, the variance and the standard deviation These are little harder to explain and a little harder to show But the variance, which is at least the easiest formula, is this: the variance is equal to that's the sum, the capital sigma that's the sum, X minus M; that's how far each score is from the mean and then you take that deviation there and you square it, you add up all the deviations, and then you divide by the number So the variance is, the average square deviation from the mean I'll try to show you that graphically

So here's our dataset and there's our mean right there at 3 and a half Let's go to one of these twos We have a deviation there of 15 and if we make a square, that's 15 points on each side, well there it is

우리는 할 수있다 a similar square for the other score too If we are going down to one, then it's going to be 25 squared and it's going to be that much bigger, and we can draw one of these squares for each one of our 8 points The squares for the scores at 9 and 11 are going to be huge and go off the page, so I'm not going to show them

But once you have all those squares you add up the area and you get the variance So, this is the formula for the variance, but now let me show the standard deviation which is also a very common 법안 It's closely related to this, specifically it's just the square root of the variance Now, there's a catch here The formulas for the variance and the standard deviation are slightly different for populations and samples in that they use different denominators

그러나 they give similar answers, not identical but similar if the sample is reasonably large, say over 30 or 50, then it's really going to be just a negligible difference 그럼 do a little pro and con of these three things First, the Range It's very easy to do, it only uses two numbers the high and the low, but it's determined entirely by those two 번호 And if they're outliers, then you've got really a bad situation

The Interquartile Range the IQR, is really good for skewed data and that's because it ignores extremes on either end, so that's nice And the variance and the standard deviation while they are the least intuitive and they are the most affected by outliers, they are also generally the most useful because they feed into so many other procedures that are used in data 과학 Finally, let's talk a little bit about the shape of the distribution 너는 할 수있다 have symmetrical or skew distribution, unimodal, uniform or u-shaped

You can have outliers, there's a lot of variations Let me show you a few of them First off is a symmetrical distribution, pretty easy They're the same on the left and on the right And this little pyramid shape is an example of a symmetrical distribution

There are also skewed distributions, where most of the scores are on one end and they taper off This here is a positively skewed distribution where most of the scores are at the low end and the outliers are on the high end This is unimodal, our same pyramid shape Unimodal means it has one mode, really kind of one hump in the data That's contrasted for instance to bimodal where you have two modes, and that usually happens when you have two distributions that got mixed together

There is also uniform distribution where every response is equally common, there's u-shaped distributions where people tend to pile up at one end or the other and a big dip in the 중간 And so there's a lot of different variations, and you want to get those, the shape of the distribution to help you understand and put the numerical summaries like the mean and like the standard deviation and put those into context In sum, we can say this: when you use this script of statistics that allows you to be concise with your data, tell the story and tell it succinctly You want to focus on things like the center of the data, the spread of the data, the shape of the data And above all, watch out for anomalies, because they can exercise really undue influence on your interpretations but this will help you better understand your data and prepare you for the steps to follow

As we discuss "Statistics in Data Science", one of the really big topics is going to be Inference And I'll begin that with just a general discussion of inferential statistics But, I'd like to begin unusually with a joke, you may have seen this before it says "There are two kinds of people in 세계 1) Those you can extrapolate from incomplete data and, the end" Of course, because the other group is the people who can't

But let's talk about extrapolating from incomplete data or inferring from incomplete data First thing you need to know is the difference between populations and samples A population represents all of the data, or every possible case in your group of interest It might be everybody who's a commercial pilot, it might be whatever But it represents everybody in that or every case in that group that you're interested in

And the thing with the population is, it just is what it is It has its values, it has it's mean and standard deviation and you are trying to figure out what those are, because you generally use those in doing your analyses On the other hand, samples instead of being all of the data are just some of the data And the trick is they are sampled with error You sample one group and you calculate the mean

It's not going to be the same if you do it the second time, and it's that variability that's in sampling that makes Inference a little tricky Now, also in inference there are two very general approaches There's testing which is short for hypothesis testing and maybe you've had some experience with this This is where you assume a null hypothesis of no effect is true You get your data and you calculate the probability of getting the sample data that you have if the null hypothesis is true

And if that value is small, usually less than 5%, then you reject the null hypothesis which says really nothings happen and you infer that there is a difference in the population The other most common version is Estimation Which for instance is characterizing confidence 간격 That's not the only version of Estimation but it's the most common 이 is where you sample data to estimate a population parameter value directly, so you use the sample mean to try to infer what the population mean is

You have to choose a confidence level, you have to calculate your values and you get high and low bounds for you estimate that work with a certain level of confidence Now, what makes both of these tricky is the basic concept of sampling error I have a colleague who demonstrates this with colored M&M's, what percentage are red, and you get them out of the bags and you count 이제하자 talk about this, a population of numbers

I'm going to give you just a hypothetical population of the numbers 1 through 10 And what I am going to do, is I am going to sample from those numbers randomly, with replacement That means I pull a number out, it might be a one and I put it back, I might get the one again So I'm going to sample with replacement, which actually may sound a little bit weird, but it's really helpful for the mathematics behind inference And here are the samples that I got, I actually did this with software

I got a 3, 1, 5, and 7 Interestingly, that is almost all odd numbers, almost My second sample is 4, 4, 3, 6 and 10 So you can see I got the 4 twice And I didn't get the 1, the 2, the 5, 7, or 8 or 9

The third sample I got three 1's! And a 10 and a 9, so we are way at the ends there And then my fourth sample, I got a 3, 9, 2, 6, 5 All of these were drawn at random from the exact same population, but you see that the samples are very different That's the sampling variability or the sampling error And that's what makes inference a little trickier

And let's just say again, why the sampling variability, why it matters 그 because inferential methods like testing and like estimation try to see past the random sampling variation to get a clear picture on the underlying population So in sum, let's say this about Inferential Statistics You sample your data from the larger populations, and as you try to interpret it, you have to adjust for error and there's a few different ways of doing that And the most common approaches are testing or hypothesis testing and estimation of parameter values

The next step in our discussion of "Statistics and Inference" is Hypothesis Testing A very common procedure in some fields of research 나는 생각하고 싶어한다 of it as put your money where your mouth is and test your theory Here's the Wright brothers out testing their plane

Now the basic idea behind hypothesis testing is this, and you start out with a question You start out with something like this: What is the probability of X occurring by chance, if randomness or meaningless sampling variation is the only explanation? Well, the response is this, if the probability of that data arising by chance when nothing's happening is low, then you reject randomness as a likely explanation Okay, there's a few things I can say about this #1, it's really common in scientific research, say for instance in the social sciences, it's used all the time #2, this kind of approach can be really helpful in medical diagnostics, where you're trying to make a yes/no decision; does a person have a particular disease

And 3, really anytime you're trying to make a go/no go decision, which might be made for instance with a purchasing decision for a school district or implementing a particular law, You base it on the data and you have to make a yes/no Hypothesis testing might be helpful in those situations Now, you have to have hypotheses to do hypothesis testing You start with H0, which is shorthand for the null hypothesis And what that is in larger, what that is in lengthier terms is that there is no systematic effect between groups, there's no effect between variables and random sampling error is the only explanation for any observed differences you see

And then contrast that with HA, which is the alternative hypothesis And this really just says there is a systematic effect, that there is in fact a correlation between variables, that there is in fact a difference between two groups, that this variable does in fact predict the other one 하자 take a look at the simplest version of this statistically speaking Now, what I have here is a null distribution This is a bell curve, it's actually the standard normal distribution

Which shows z-scores in relative frequency, and what you do with this is you mark off regions of rejection And so I've actually shaded off the highest 25% of the distribution and the lowest 25% What's funny about this is, is that even though I draw it +/- 3, it looks like 0

It's actually infinite and asymptotic But, that's the highest and lowest 25% collectively leaves 95% in the middle Now, the idea is then that you gather your data, you calculate a score for you data and you see where it falls in this distribution And I like to think of that as you have to go down one path to the other, you have to make a decision

And you have to decide to whether to retain your null hypothesis; maybe it is random, or reject it and decide no I don't think it's random The trick is, things can go wrong You can get a false positive, and this is when the sample shows some kind of statistical effect, but it's really randomness And so for instance, this scatterplot I have here, you can see a little down hill association here but this is in fact drawn from data that has a true correlation of zero And I just kind of randomly sampled from it, it took about 20 rounds, but it looks negative but really there's nothing happening

The trick about false positives is; that's conditional on rejecting the null The only way to get a false positive is if you actually conclude that there's a positive result It goes by the highly descriptive name of a Type I error, but you get to pick a value for it, and 05 or a 5% risk if you reject the null hypothesis, that's the most common value Then there's a false negative

This is when the data looks random, but in fact, it's systematic or there's a relationship So for instance, this scatterplot it looks like there's pretty much a zero relationship, but in fact this came from two variables that were correlated at 25, that's a pretty strong association Again, I randomly sampled from the data until I got a set that happened to look pretty flat And a false negative is conditional on not rejecting the null

당신 can only get a false negative if you get a negative, you say there's nothing there 그 also called a Type II error and this is a value that you have to calculate based on several elements of your testing framework, so it's something to be thoughtful of 지금, I do have to mention one thing, big security notice, but wait The problem with Hypothesis 테스트; there's a few #1, it's really easy to misinterpret it

A lot of people say, well if you get a statistically significant result, it means that it's something big and meaningful And that's not true because it's confounded with sample size and a lot of other things that don't really matter Also, a lot of other people take exception with the assumption of a null effect or even a nil effect, that there's zero difference at all And that can be, in certain situations can be an absurd claim, so you've got to watch out for that There's also bias from the use of cutoff

Anytime you have a cut off, you're going to have problems where you have cases that would have been slightly higher, slightly lower It would have switched on the dichotomous outcome, so that is a problem 그리고 나서 lot of people say, it just answers the wrong question, because "What it's telling you is what's the probability of getting this data at random?" That's not what most people care 약 They want it the other way, which is why I mentioned previously Bayes theorem and I'll say more about that later That being said, Hypothesis Testing is still very deeply ingrained, very useful in a lot of questions and has gotten us really far in a lot of domains

So in sum, let me say this Hypothesis Testing is very common for yes/no outcomes and is the default in many fields And I argue it is still useful and information despite many of the well substantiated critiques We'll continue in "Statistics and Inference" by discussing Estimation Now as opposed to Hypothesis Testing, Estimation is designed to actually give you a number, give you a value

Not just a yes/no, go/no go, but give you an estimate for a parameter that you're trying to get I like to think of it sort of as a new angle, looking at something from a different way And the most common, approach to this is Confidence Intervals Now, the important thing to remember is that this is still an Inferential procedure You're still using sample data and trying to make conclusions about a larger group or 인구

The difference here, is instead of coming up with a yes/no, you'd instead focus on likely values for the population value Most versions of Estimation are closely related to Hypothesis Testing, sometimes seen as the flip side of the coin And we'll see how that works in later videos Now, I like to think of this as an ability to estimate any sample statistic and there's a few different versions We have Parametric versions of Estimation and Bootstrap versions, that's why I got the boots here

And that's where you just kind of randomly sample from the data, in an effort to get an idea of the variability 너는 할 수있다 also have central versus noncentral Confidence Intervals in the Estimation, but we are not going to deal with those Now, there are three general steps to this First, you need to choose a confidence level

Anywhere from say, well you can't have a zero, it has to be more than zero and it can't be 100% Choose something in between, 95% is the most common And what it does, is it gives you a range a high and a low And the higher your level of confidence the more confident you want to be, the wider the range is going to be between your high and your low estimates Now, there's a fundamental trade off in what' happening here and the trade off between accuracy; which means you're on target or more specifically that your interval contains the true population value

And the idea is that leads you to the correct Inference There's a tradeoff between accuracy and what's called Precision in this context And precision means a narrow interval, as a small range of likely values And what's important to emphasize is this is independent of accuracy, you can have one without the other! Or neither or both In fact, let me show you how this works

What I have here is a little hypothetical situation, I've got a variable that goes from 10 to 90, and I've drawn a thick black line at 50 If you think of this in terms of percentages and political polls, it makes a very big difference if you're on the left or the right of 50% And then I've drawn a dotted vertical line at 55 to say that that's our theoretical true population value And what I have here is a distribution that shows possible values based on our sample data And what you get here is it's not accurate, because it's centered on the wrong thing

It's actually centered on 45 as opposed to 55 And it's not precise, because it's spread way out from may be 10 to almost 80 So, this situation the data is no help really at all Now, here's another 하나 This is accurate because it's centered on the true value

That's nice, but it's still really spread out and you see that about 40% of the values are going to be on the other side of 50%; might lead you to reach the wrong conclusion That's a problem! Now, here's the nightmare situation This is when you have a very very precise estimate, but it's not accurate; 틀렸어 And this leads you to a very false sense of security and understanding of what's going on and you're going to totally blow it all the time The ideal situation is this: you have an accurate estimate where the distribution of sample values is really close to the true population value and it's precise, it's really tightly knit and you can see that about 95% of it is on the correct side of 50 and that's good

네가 원한다면 see all four of them here at once, we have the precise two on the bottom, the imprecise ones on the top, the accurate ones on the right, the inaccurate ones on the left 과 so that's a way of comparing it But, no matter what you do, you have to interpret confidence 간격 Now, the statistically accurate way that has very little interpretation is this: you would say the 95% confidence interval for the mean is 58 to 7

2 Okay, so that's just kind of taking the output from your computer and sticking it to sentence form The Colloquial Interpretation of this goes like this: there is a 95% chance that the population mean is between 58 and 72

Well, in most statistical procedures, specifically frequentist as opposed to bayesian you can't do that That implies the population mean shifts, that's not usually how people see it Instead, a better interpretation is this; 95% of confidence intervals for randomly selected samples will contain the population mean Now, I can show you this really easily, with a little demonstration This is where I randomly generated data from a population with a mean of 55 and I got 20 different samples

And I got the Confidence Interval from each sample and I charted the high and the low And the question is, did it include the true population value And you can see of these 20, 19 included it, some of them barely made 그것 If you look at sample #1 on the far left; barely made it Sample #8, it doesn't look like it made it, sample 20 on the far right, barely made it on the other end

오직 하나 missed it completely, that sample #2, which is shown in red on the left Now, it's not always just one out of twenty, I actually had to run this simulation about 8 times, because it gave me either zero or 3, or 1 or two, and I had to run it until I got exactly what I was looking for here, But this is what you would expect on average So, let's say a few things about this There are somethings that affect the width of a Confidence Interval

The first is the confidence level, or CL Higher confidence levels create wider intervals The more certain you have to be, you're going to give a bigger range to cover your basis Second, the Standard Deviation or larger standard deviations create wider intervals 만약 thing that you are studying is inherently really variable, then of course you're estimate of the range is going to be more variable as well

And then finally there is the n or the sample size This one goes the other way Larger sample sizes create narrower intervals The more observations you have, the more precise and the more reliable things tend to be 나는 can show you each of these things graphically

Here we have a bunch of Confidence Intervals, where I am simply changing the confidence level from 50 at the low left side to 999 and as you can see, it gets much bigger as we increase Next one is Standard Deviation As the sample standard deviation increases from 1 to 16, you can see that the interval gets a lot bigger

And then we have sample size going from just 2 up to 512; I'm doubling it at each point And you can see how the interval gets more and more and more precise as we go through And so, let's say this to sum up our discussion of estimation 자신 Intervals which are the most common version of Estimation focus on the population parameter And the variation in the data is explicitly included in that Estimation

Also, you can argue that they are more informative, because not only do they tell you whether the population value is likely, but they give you a sense of the variability of the data itself, and that's one reason why people will argue that confidence levels should always be included in any statistical analysis As we continue our discussion on "Statistics and Data Science", we need to talk about some of the choices you have to make, some of the tradeoffs and some of the effects that these things have We'll begin by talking about Estimators, that is different methods for estimating parameters I like to think of it as this, "What kind of measuring stick or standard are you going to be using?" Now, we'll begin with the most common This is called OLS, which is actually short for Ordinary Least Squares

이것은 a very common approach, it's used in a lot of statistics and is based on what is called the sum of squared errors, and it's characterized by an acronym called BLUE, which stands for Best Linear Unbiased Estimator Let me show you how that works Let's take a scatterplot here of an association between two variables This is actually the speed of a car and the distance to stop from about the '20's I think We have a scatterplot and we can draw a straight regression line right through it

Now, the line I've used is in fact the Best Linear Unbiased Estimate, but the way that you can tell that is by getting what are called the Residuals If you take each data point and draw a perfectly vertical line up or down to the regression line, because the regression line predicts what the value would be for that value on the X axis Those are the residuals Each of those individual, vertical lines is Residual You square those and you add them up and this regression line, the gray angled line here will have the smallest sum of the squared residuals of any possible straight line you can run through it

Now, another approach is ML, which stands for Maximum Likelihood And this is when you choose parameters that make the observed data most likely It sounds kind of weird, but I can demonstrate it, and it's based on a kind of local search It doesn't always find the best, I like to think of it here like the person here with a pair of binoculars, looking around them, trying hard to find something, but you could theoretically miss something Let me give a very simple example of how this works

Let's assume that we're trying to find parameters that maximize the likelihood of this dotted vertical line here at 55, and I've got three possibilities I've got my red distribution which is off to the left, blue which is a little more centered and green which is far to the right And these are all identical, except they have different means, and by changing the means, you see there the one that is highest where the dotted line is the blue one And so, if the only thing we are doing is changing the mean, and we are looking at these three distributions, then the blue one is the one that has the maximum likelihood for this particular parameter On the other hand, we could give them all the same meaning right around 50, and vary their standard deviations instead and so they spread out different amounts

이 경우, the red distribution is highest at the dotted vertical line and so it has the maximum value Or if you want to, you can vary both the mean and the standard deviations simultaneously And here green gets the slight advantage Now this is really a caricature of the process because obviously you would just want to center it on the 55 and be done with it The question is when you have many variables in your dataset

Then it's a very complex process of choosing values that can maximize the association between all of them But you get a feel for how it works with this The third approach which is pretty common is MAP or map for Maximum A Posteriori This is a Bayesian approach to parameter estimation, and what it does it adds the prior distribution and then it goes through sort of an anchoring and adjusting 방법 What happens, by the way is stronger prior estimates exert more influence on the estimate and that might mean for example larger sample or more extreme values

And those have a greater influence on the posterior estimate of the parameters Now, what's interesting is that all three of these methods all connect with each other Let me show you exactly how they connect The ordinary least squares, OLS, this is equivalent to maximum likelihood, when it has normally distributed error terms And maximum likelihood, ML is equivalent to Maximum A Posteriori or MAP, with a uniform prior distribution

You want to put it another way, ordinary least squares or OLS is a special case of Maximum Likelihood And then maximum likelihood or ML, is a special case of Maximum A Posteriori, and just in case you like it, we can put it into set notation OLS is a subset of ML is a subset of MAP, and so there are connections between these three methods of estimating population parameters 나를 시켜줘 just sum it up briefly this way

The standards that you use OLS, ML, MAP they affect your choices and they determine which parameters best estimate what's happening in your data Several methods exist and there's obviously more than what I showed you right here, but many are closely related and under certain circumstances they're all identical 그래서 it comes down to exactly what are your purposes and what do you think is going to work best with the data that you have to give you the insight that you need in your own project The next step we want to consider in our "Statistics and Data Science", are choices that we have to make Has to do with Measures of fit or the correspondence between the data that we have and the model that you create

Now, turns out there are a lot of different ways to measure this and one big question is how close is close enough or how can you see the difference between the model and reality Well, there's a few really common approaches to this 그만큼 first one has what's called R2 That's kind of the longer name, that's the coefficient of determination There's a variation; adjusted R2, which takes into consideration the number of variables

Then there's minus 2LL, which is based on the likelihood ratio and a couple of variations The Akaike Information Criterion or AIC and the Bayesian Information Criterion or BIC Then there's also Chi-Squared, it's actually a Greek c, it looks like ax, but it's actually c and it's chi-squared And so let's talk about each of these in turn First off is R2, this is the squared multiple correlation or the coefficient of determination

And what it does is it compares the variance of Y, so if you have an outcome variable, it looks like the total variance of that and compares it to the residuals on Y after you've made your prediction The scores on squared range from 0 to 1 and higher is better 그만큼 next is -2 Log-likelihood that's the likelihood ratio or like I just said the -2 log likelihood And what this does is compares the fit of nested models, we have a subset then a larger set, than the larger set overall This approach is used a lot in logistic regression when you have a binary outcome

And in general, smaller values are considered better fit Now, as I mentioned there are some variations of this I like to think of variations of chocolate The -2 log likelihood there's the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC) and what both of these do, they adjust for the number of predictors Because obviously you're going to have a huge number of predictors, you're going to get a really good fit

But you're probably going to have what is called overfitting, where your model is tailored to specifically to the data you currently have and that doesn't generalize well These both attempt to reduce the effect of overfitting Then there's chi-squared 다시 It's actually a lower case Greek c, looks like an x and chi-squared is used for examining the deviations between two datasets Specifically between the observed dataset and the expected values or the model you create, we expect this many frequencies in each category

Now, I'll just mention when I go into the store there's a lot of other choices, but these are some of the most common standards, particularly the R2 And I just want to say, in sum, there are many different ways to assess the fit that corresponds between a model and 귀하의 데이터 And the choices effect the model, you know especially are you getting penalized for throwing in too many variables relative to your number of cases? Are you dealing with a quantitative or binary outcome? Those things all matter, and so the most important thing as always, my standing advice is keep your goals in mind and choose a method that seems to fit best with your analytical strategy and the insight you're trying to get from 귀하의 데이터 The "Statistics and Data Science" offers a lot of different choices 하나의 the most important is going to be feature selection, or the choice of variables to include in your model

It's sort of like confronting this enormous range of information and trying to choose what matters most Trying to get the needle out of the haystack The goal of feature selection is to select the best features or variables and get rid of uninformative/noisy variables and simplify the statistical model that you are creating because that helps avoid overfitting or getting a model that works too well with the current data and works less well with other data The major problem here is Multicollinearity, a very long word 그 has to do with the relationship between the predictors and the model

I'm going to show it to you graphically here Imagine here for instance, we've got a big circle here to represent the variability in our outcome variable; we're trying to predict it And we've got a few predictors So we've got Predictor # 1 over here and you see it's got a lot of overlap, that's nice Then we've got predictor #2 here, it also has some overlap with the outcome, but it's also overlaps with Predictor 1

And then finally down here, we've got Predictor 3, which overlaps with both of them And the problem rises the overlap between the predictors and the outcome variable Now, there's a few ways of dealing with this, some of these are pretty common So for instance, there's the practice of looking at probability values and regression equations, there's standardized coefficients and there's variations on sequential regression There are also, there's newer procedures for dealing with the disentanglement of the association between the predictors

There's something called Commonality analysis, there's Dominance Analysis, and there are Relative Importance Weights Of course there are many other choices in both the common and the newer, but these are just a few that are worth taking a special look at First, is P values or probability values 이것은 the simplest method, because most statistical packages will calculate probability values for each predictor and they will put little asterisks next to it And so what you're doing is you're looking at the p-values; the probabilities for each predictor or more often the asterisks next to it, which sometimes give it the name of Star Search

You're just kind of cruising through a large output of data, just looking for the stars or asterisks This is fundamentally a problematic approach for a lot of reasons The problem here, is your looking individually and it inflates false positives Say you have 20 variables Each is entered and tested with an alpha or a false positive of 5%

You end up with nearly a 65% chance of a least one false positive in there That's distorted by sample size, because with a large enough sample anything can become statistically significant And so, relying on p-values can be a seriously problematic approach Slightly better approach is to use Betas or Standardized regression coefficients and this is where you put all the variables on the same scale So, usually standardized from zero and then to either minus 1/plus 1 or with a standardized deviation of 1

The trick is though, they're still in the context of each other and you can't really separate them because those coefficients are only valid when you take that group of predictors as a whole So, one way to try and get around that is to do what they call stepwise procedures Where you look at the variables in sequence, there's several versions of sequential regression that'll allow you to do that You can put the variables into groups or blocks and enter them in blocks and look at how the equation changes overall You can examine the change in fit in each step

The problem with a stepwise procedure like this, is it dramatically increases the risk of overfitting which again is a bad thing if you want to generalize your data And so, to deal with this, there is a whole collection of newer methods, a few of them include commonality analysis, which provides separate estimates for the unique and shared contributions of each variable Well, that's a neat statistical trick but the problem is, it just moves the problem of disentanglement to the analyst, so you're really not better off then you were as far as I can tell There's dominance analysis, which compares every possible subset of Predictors Again, sounds really good, but you have the problem known as the combinatorial explosion

If you have 50 variables that you could use, and there are some that have millions of variables, with 50 variables, you have over 1 quadrillion possible combinations, you're not going to finish that in your lifetime And it's also really hard to get things like standard errors and perform inferential statistics with this kind of model Then there's also something that's even more recent than these others and that's called relative importance weights And what that does is creates a set of orthogonal predictors or uncorrelated with each other, basing them off of the originals and then it predicts the scores and then it can predict the outcome without the multicollinear because these new predictors are uncorrelated It then rescales the coefficients back to the original variables, that's the back-transform

Then from that it assigns relative importance or a percentage of explanatory power to each predictor variable Now, despite this very different approach, it tends to have results that resemble dominance analysis It's actually really easy to do with a website, you just plug in your information and it does it for you And so that is yet another way of dealing with a problem multicollinearity and trying to disentangle the contribution of different 변수 In sum, let's say this

What you're trying to do here, is trying to choose the most useful variables to include into your model Make it simpler, be parsimonious 또한, reduce the noise and distractions in your data And in doing so, you're always going to have to confront the ever present problem of multicollinearity, or the association between the predictors in your model with several different ways of dealing with that The next step in our discussion of "Statistics and the Choices you have to Make", concerns common problems in modeling

And I like to think of this is the situation where you're up against the rock and the hard place and this is where the going gets very hard Common problems include things like Non-Normality, Non-Linearity, Multicollinearity and Missing Data 그리고 나는 talk about each of these Let's begin with Non-Normality Most statistical procedures like to deal with nice symmetrical, unimodal bell curves, they make life really easy

그러나 sometimes you get really skewed distribution or you get outliers Skews and outliers, while they happen pretty often, they're a problem because they distort measures like the mean gets thrown off tremendously when they have outliers And they throw off models because they assume the symmetry and the unimodal nature of a normal distribution Now, one way of dealing with this as I've mentioned before is to try transforming the data, taking the logarithm, try something else But another problem may be that you have mixed distributions, if you have a bimodal distribution, maybe what you really have here is two distributions that got mixed together and you may need to disentangle them through exploring your data 조금 더

Next is Non-Linearity The gray line here is the regression line, we like to put straight lines through things because it makes the description a lot easier But sometimes the data is curved and this is you have a perfect curved relationship here, but a straight line doesn't work with that Linearity is a very common assumption of many procedures especially regression To deal with this, you can try transforming one or both of the variables in the equation and sometimes that manages to straighten out the relationship between the two of them

Also, using Polynomials Things that specifically include curvature like squares and cubed values, that can help as well Then there's the issues of multicollinearity, which I've mentioned previously This is when you have correlated predictors, or rather the predictors themselves are associated to each other The problem is, this can distort the coefficients you get in the overall model

Some procedures, it turns out are less affected by this than others, but one overall way of using this might be to simply try and use fewer variables If they're really correlated maybe you don't need all of them And there are empirical ways to deal with this, but truthfully, it's perfectly legitimate to use your own domain expertise and your own insight to the problem To use your theory to choose among the variables that would be the most informative Part of the problem we have here, is something called the Combinatorial Explosion

This is where combinations of variables or categories grow too fast for analysis Now, I've mentioned something about this before If you have 4 variables and each variable has two categories, then you have 16 combinations, fine you can try things 16 different ways That's perfectly doable If you have 20 variables with five categories; again that's not to unlikely, you have 95 trillion combinations, that's a whole other ball game, even with your fast 컴퓨터

A couple of ways of dealing with this, #1 is with theory Use your theory and your own understanding of the domain to choose the variables or categories with the greatest potential to inform You know what you're dealing with, rely on that information 둘째 is, there are data driven approaches You can use something called a Markov chain Monte Carlo model to explore the range of possibilities without having to explore the range of possibilities of each and every single one of your 95 trillion combinations

Closely related to the combinatorial explosion is the curse of dimensionality This is when you have phenomena, you're got things that may only occur in higher dimensions or variable sets Things that don't show up until you have these unusual combinations That may be true of a lot of how reality works, but the project of analysis is simplification And so you've got to try to do one or two 다른 것들

You can try to reduce Mostly that means reducing the dimensionality of 귀하의 데이터 Reduce the number of dimensions or variables before you analyze You're actually trying to project the data onto a lower dimensional space, the same way you try to get a shadow of a 3D object There's a lot of different ways to do that

There's also data driven methods And the same method here, a Markov chain Monte Carlo model, can be used to explore a wide range of possibilities Finally, there is the problem of Missing Data and this is a big problem Missing data tends to distort analysis and creates bias if it's a particular group that's missing And so when you're dealing with this, what you have to do is actually check for patterns and missingness, you create new variables that indicates whether or not a variable is missing and then you see if that is associated with any of your other 변수

If there's not strong patterns, then you can impute missing values 너는 할 수있다 put in the mean or the median, you can do Regression Imputation, something called Multiple Imputation, a lot of different choices And those are all technical topics, which we will have to talk about in a more technically oriented series But for right now, in terms of the problems that can come up during modeling, I can summarize it this way

#1, check your assumptions at every step Make sure that the data have the distribution that you need, check for the effects of outliers, check for ambiguity and bias See if you can interpret what you have and use your analysis, use data driven methods but also your knowledge of the theory and the meaning of things in your domain to inform your analysis and find ways of dealing with these problems As we continue our discussion of "Statistics and the Choices that are Made", one important consideration is Model Validation And the idea here is that as you are doing your analysis, are you on target? More specifically, the model that you create through regression or whatever you do, your model fits the sample beautifully, you've optimized it there

But, will it work well with other data? Fundamentally, this is the question of Generalizability, also sometimes called Scalability Because you are trying to apply in other situations, and you don't want to get too specific or it won't work in other situations Now, there are a few general ways of dealing with this and trying to get some sort of generalizability #1 is Bayes; a Bayesian approach Then there's Replication

Then there's something called Holdout Validation, then there is Cross-Validation I'll discuss each one of these very briefly in conceptual terms The first one is Bayes and the idea here is you want to get what are called Posterior Probabilities Most analyses give you the probability value for the data given; the hypothesis, so you have to start with an assumption about the hypothesis But instead, it's possible to flip that around by combining it with special kind of data to get the probability of the hypothesis given 자료

And that is the purpose of Bayes theorem; which I've talked about elsewhere Another way of finding out how well things are going to work is through Replication That is, do the study again It's considered the gold standard in many different fields The question is whether you need an exact replication or if a conceptual one that is similar in certain respects

You can argue for both ways, but one thing you do want to do is when you do a replication then you actually want to combine the results And what's interesting is the first study can serve as the Bayesian prior probability for the second study 그래서 you can actually use meta-analysis or Bayesian methods for combining the data from the two 그들의 Then there's hold out validation This is where you build your statistical model on one part of the data and you test it on the other

I like to think of it as the eggs in separate baskets The trick is that you need a large sample in order to have enough to do these two steps separately On the other hand, it's also used very often in data science competitions, as a way of having a sort of gold standard for assessing the validity of a model Finally, I'll mention just one more and that's Cross-Validation Where you use the same data for training and for testing or validating

There's several different versions of it, and the idea is that you're not using all the data at once, but you're kind of cycling through and weaving the results together There's Leave-one-out, where you leave out one case at a time, also called LOO There's Leave-p-out, where you leave out a certain number at each point There's k-fold where you split the data into say for instance 10 groups and you leave out one and you develop it on the other nine, then you cycle through And there's repeated random subsampling, where you use a random process at each point

어떤 of those can be used to develop the model on one part of the data and tested on another and then cycle through to see how well it holds up on different circumstances 그래서 in sum, I can say this about validation You want to make your analysis count by testing how well your model holds up from the data you developed it on, to other situations Because that is what you are really trying to accomplish This allows you to check the validity of your analysis and your reasoning and it allows you to build confidence in the utility of your results

To finish up our discussion of "Statistics and Data Science" and the choices that are involved, I want to mention something that really isn't a choice, but more an attitude And that's DIY, that's Do it yourself The idea here is, you know really you just need to get started Remember data is democratic It's there for everyone, everybody has data

Everybody works with data either explicitly or implicitly Data is democratic, so is Data Science And really, my overall message is You can do it! You know, a lot of people think you have to be this cutting edge, virtual reality sort of thing 그리고 그것은 true, there's a lot of active development going on in data science, there's always new 물건 The trick however is, the software you can use to implement those things often lags

It'll show up first in programs like R and Python, but as far as it showing up in a point click program that could be years What's funny though, is often these cutting edge developments don't really make much of a difference in the results of the interpretation They may in certain edge cases, but usually not a huge difference So I'm just going to say analyst beware You don't have to necessarily do it, it's pretty easy to do them wrong and so you don't have to wait for the cutting edge

Now, that being said, I do want you to pay attention to what you are doing A couple of things I have said repeatedly is "Know your goal" Why are you doing this study? Why are you analyzing the data, what are you hoping to get out of it? Try to match your methods to your goal, be goal directed 초점 on the usability; will you get something out of this that people can actually do something 와 Then, as I've mentioned with that Bayesian thing, don't get confused with probabilities

Remember that priors and posteriors are different things just so you can interpret things accurately Now, I want to mention something that's really important to me personally And that is, beware the trolls You will encounter critics, people who are very vocal and who can be harsh and grumpy and really just intimidating And they can really make you feel like you shouldn't do stuff because you're going to do it wrong

But the important thing to remember is that the critics can be wrong Yes, you'll make mistakes, everybody does 있잖아, 나 못해 tell you how many times I have to write my code more than once to get it to do what I want it to do But in analysis, nothing is completely wasted if you pay close attention

I've mentioned this before, everything signifies Or in other words, everything has meaning The trick is that meaning might not be what you expected it to be So you're going to have to listen carefully and I just want to reemphasize, all data has value 그러니 확신해라

your listening carefully In sum, let's say this: no analysis is perfect The real questions is not is your analysis perfect, but can you add value? And I'm sure that you can 과 fundamentally, data is democratic So, I'm going to finish with one more picture here and that is just jump write in and get started

You'll be glad you did To wrap up our course "Statistics and Data Science", I want to give you a short conclusion and some next steps Mostly I want to give a little piece of advice I learned from a professional saxophonist, Kirk Whalum And he says there's "There's Always Something To Work On", there's always something you can do to try things differently to get better It works when practicing music, it also works when you're dealing with data

Now, there are additional courses, here at datalabbcc that you might want to look at They are conceptual courses, additional high-level overviews on things like machine learning, data visualization and other topics 그리고 나 encourage you to take a look at those as well, to round out your general understanding of 필드 There are also however, many practical courses

These are hands on tutorials on these statistical procedures I've covered and you learn how to do them in R, Python and SPSS and other programs But whatever you're doing, keep this other little piece of advice from writers in mind, and that is "Write what you know" And I'm going to say it this way 탐색 and analyze and delve into what you know Remember when we talked about data science and the Venn Diagram, we've talked about the coding and the stats

그러나 이것을 잊지 마라 part on the bottom Domain expertise is just as important to good data science as the ability to work with computer coding and the ability to work with the numbers and quantitative 기술 But also, remember this You don't have to know everything, your work doesn't have to be perfect

The most important thing is just get started, you'll be glad you did Thanks for joining me and good luck!

TIRIS – Big Data Analytics for Intelligent Decisions – Thales

신뢰할 수있는 운송에 대한 요구는 끊임없이 증가하고 있습니다 철도는 향후 20 년 동안 40 %까지 성장할 것으로 예상됩니다

더 긴 운영 시간과 더 많은 승객을 제공합니다 대조적으로, 철도 운영자 및 유지 보수 담당자는 운영 및 유지 관리 비용을 통제하고 간소화하는 데 어려움을 겪고 있습니다 디지털화는 비용을 관리하고 수익을 최적화 할 수있는 기회입니다 연구 결과에 따르면 데이터 기반 의사 결정에 의존하는 회사는 매출을 최대 30 %까지 끌어 올릴 수 있습니다 철도 산업에서 데이터 기반 의사 결정의 가장 큰 기회 중 하나는 예측 유지 관리 및 운영 지원입니다

예측 유지 보수를 통해 유지 보수 담당자는 예기치 못한 서비스에 장애를 일으켜 계획된 시스템 종료로 이동할 수 있습니다 가용성을 높이고 유지 보수 비용을 줄입니다 또한 수리 관련 정보를 운영 팀에 쉽게 연결하여 사일로를 파기합니다 이를 통해 팀은 유지 보수 및 운영상의 요구 사항을 이해하여 수리를 수행하기위한 최적의 시간대를 찾을 수 있습니다 시간표 및 처벌에 대한 혼란을 최소화합니다 TIRIS는 운송 업계의 Thales 예측 유지 보수 및 운영 지원 도구입니다

그것은 물건의 산업 인터넷과 같은 기술을 활용, 클라우드 기반 솔루션 및 데이터 분석을 활용하여 크고 작은 데이터 소스로부터 얻은 뛰어난 통찰력과 지식을 제공합니다 이 밖에도 다양한 디지털 서비스가 제공됩니다 소프트웨어 개발 데이터 과학 자문 서비스 포함 TIRIS는 Thales의 세계적인 사이버 보안 경험에 기술 무신론자이며 안전합니다 최종 결과는 효율적인 운송입니다 행복한 승객은 정시에 목적지에 도착하지 않고 행복한화물 고객이 포장을 해체하고 철도 산업 효율적인 운송은 더 많은 비즈니스를 의미합니다

Splunk Tutorial | What Is Splunk | Splunk Tutorial For Beginners | Splunk Careers | Intellipaat

안녕하세요 여러분, Intellipaat의 또 다른 재미있는 세션에 오신 것을 환영합니다 오늘 세션에서 우리는 Splunk가 왜 토론 하는가? Splunk 및 그 구성 요소 란 무엇입니까? Splunk 및 유스 케이스의 작동 메커니즘은 무엇입니까? 로컬 컴퓨터에서 데이터를 입력하는 실전 연습

Splunk의 커리어 기회? Splunk가 필요한 이유로 이동하기 전에? Splunk은 무엇입니까? Splunk라는 단어를 들었습니까? Splunk는 머신 데이터를 분석하는 데 사용되는 소프트웨어 또는 도구입니다 그러나 당신은 기계 데이터를 분석해야하는 이유가 무엇인지 생각 해본 적이 있습니까? 당신은 지수 함수를 알고 있어야합니다 지난 10 년간 기계 데이터의 성장 이것은 주로 증가하는 기계의 수와 IoT 장치 그리고 다른 문제에 대한 해결책이 숨겨져 있기 때문에 데이터를 분석해야합니다

머신 데이터에서 이 머신 데이터를 분석하면 고객 행동 및 요구 사항 이는 우리에게 더 나은 서비스를 제공하는 데 도움이 될 것입니다 이 컴퓨터 데이터는 시스템 관리자에게 보안 문제 및 시스템 오류에 대해 설명합니다 기계 데이터를 분석하면 기계 기능을 향상시키는 데 도움이됩니다

그러나 머신 데이터를 분석하는 것은 간단한 작업이 아닙니다 그럼, 어떻게해야합니까? 우리가 어떻게 보는지 보자 당신이 시스템으로 일하고 있다고 생각해보십시오 일부 조직의 관리자 조직에서 센서와 같은 다양한 출처에서 데이터를 생성 할 수 있습니다

네트워크 장치, 클라우드 서비스, 사물의 인터넷 및 모바일 서비스 그리고 이러한 자원에서 생성 된 데이터는 비 구조화 된 시스템의 형태로 나타납니다 데이터 예를 들어 머신 데이터는 이런 식으로 하나의 시스템에서 장애가 발생했으며 솔루션을 찾아야한다고 가정 해 보겠습니다

그것을 위해 하드웨어를 어느 단계에서 실패했는지 알아내는 것은 매우 어려울 것입니다 프로그램 머신 데이터 : 이해해야 할 복잡한 구조화되지 않은 형식으로 분석 / 시각화에 적합하지 않음 그래서 어떻게 생각합니까? 어떻게 해결할 수 있습니까? 이 경우 기계 데이터를 이해하고 어디에서 식별 할 수 있는지에 대한 도구를 필요로합니다 정확히 하드웨어 나 소프트웨어가 실패했습니다

이미 논의한 광고는 해결할 수 있습니다 Splunk를 사용하여 Splunk는 기계 데이터를 처리하여 인간을 추출하는 도구입니다 읽을 수있는 형태의 데이터 이렇게하면 문제를 분석하는 데 도움이됩니다 소프트웨어 나 하드웨어의 상태를 찾고있을 때마다 소프트웨어의 상태를 이해하는 데 도움이되는 로그 파일입니다

Splunk는 Google 로그 파일로 정의 할 수 있습니다 즉, Splunk는 IT 인프라에 머신 데이터를 제공합니다 Splunk의 주요 구성 요소는 다음과 같습니다 전달자, 인덱서 및 검색 헤드가 있습니다 전달자는 데이터를 수집하여 다른 사람에게 전달해야합니다 Splunk 인스턴스 또는 인덱서

인덱서는 데이터가 저장되는 장소입니다 그러나 인덱서에서 데이터에 액세스 할 수는 없으며 검색을해야합니다 데이터를 분석, 시각화 및보고하는 데 도움이되는 정보를 제공합니다 Splunk는 사용자가 시스템 데이터 분석 : 시스템 성능 분석 시스템의 장애 상태 식별 비즈니스 매트릭스 모니터링 이유 검색 및 조사 데이터 시각화 및 결과 대시 보드 생성에 도움을줍니다 또한 나중에 참조 할 수 있도록 데이터를 저장할 수도 있습니다

이제 Splunk가 어떻게 작동하는지 보겠습니다 우리는 로그 형태의 머신에 저장된 데이터를 가지고 있습니다 데이터베이스, 뷰 또는 API 절 다른 한편, 우리는 정보 분배 자 역할을하는 사용자를 다양한 출처 비즈니스 운영에는 그래프, 이미지, 피벗 및 대시 보드가 필요합니다

비즈니스를 위해 더 나은 결정을 내린다 따라서 데이터와 사용자 간의 가교 역할을하는 것은 무엇이라고 생각하십니까? 예, 데이터 색인입니다 아니면 데이터베이스의 테이블이라고 생각할 수도 있습니다 이것이 데이터가 기계에 저장되는 방법입니다 데이터를 저장하면 추출 할 수 있습니다

데이터는 검색 처리 언어 또는 SPL을 사용합니다 머신의 모든 데이터는 이제 이벤트 형태로 저장됩니다 컴퓨터에서이 데이터를 검색하면 편집, 계산 또는 콘서트를 할 수 있습니다 필요에 따라 이 기술은 구현하기 쉽습니다 또한 사용자에게 다양한 서비스를 제공합니다

그 중 일부는 데이터 인덱싱입니다 검색에 대한 지식 매핑 및 검색을 용이하게합니다 경고 예약 Splunk 보고서 준비 및 공유 요즘 우리는 저장 장치를 보았습니다 몇 년 동안 더 좋아지고 나아졌으며, 우리는 프로세서가 더 많아지는 것을 보았습니다 모든 노화 방지 효과는 있지만 데이터 이동은 아닙니다

Splunk는 이것을 수행하는 데 유용한 도구입니다 왜 조직이 Splunk를 선택합니다 Splunk의 장점 중 일부는 다음과 같습니다 그것은 로그 파일을위한 "구글"로 일하기 시작했습니다 즉, 더 간단한 방법을 사용하여 Splunk 검색 형식으로 데이터를 입력 할 수 있습니다 검색 처리 언어 (SPL)의 도움으로 어떤 백엔드 나 데이터베이스도 데이터를 직접 저장하므로 필요하지 않습니다

Splunk 파일 시스템에서 단일 실패 지점이 발생하지 않습니다 위에서 언급 한이 기술의 주요 특징 외에도 많은 기능이 있습니다 빠른 설치, 쉬운 확장 성, 세분성 손실없이 유지, 이 기술에 특유의 경쟁력을 부여합니다 Splunk의 주요 고객은 Vodafone, 도미노 스, ING 은행 및 뉴욕 에어 브레이크

Vodafone은 엄청난 양의 고객 데이터가 생성되는 통신 회사입니다 따라서 Vodafone은 Splunk를 사용하여이 큰 데이터를 최적화하고 제공합니다 더 나은 고객 지원 Domino는 Splunk가 고객 행동을 이해하기로 결정했습니다 ING 은행은 Splunk를 사용하여 주요 앱 문제를 해결하고 고객 행동에 대한 통찰력을 얻고 있습니다

뉴욕의 에어 브레이크는 Splunk를 구현하여 한 달에 거의 10 억 달러를 절약했습니다 이제 사례를 사용하고 어떻게 사용하는지 살펴 보겠습니다 Splunk는 조직이 기술적으로 문제를 해결할 수 있도록 도와줍니다 도미노의 피자가 전자 상거래 용 패스트 푸드 거인이라는 사실을 알고 있을지 모르지만, 그러나 그들이 직면 한 어려움과 도전에 대해 알고 계십니까? 고객의 요구 사항을 이해하고보다 효과적으로 고객에게 제공하고자했습니다 빅 데이터를 사용합니다

많은 것을 생성하는 데 사용 된 Dominos 데이터베이스 구조화되지 않은 데이터로 인해 유지 관리가 어려워집니다 수동 검색의 오류, 기본 설정의 차이 및 기타 등등 이것은 Splunk가 해결했습니다 Splunk는 도미노가 데이터를 더 빨리 검색하고 성능을 모니터링하며 더 나은 통찰력을 얻도록 도왔습니다 그것은 도미노가 다른 대화 형지도를 설정하는 것을 도왔습니다 고객으로부터의 실시간 피드백, 다양한 지불 방법 분석, 사내 판매 팀의 성과를 모니터링 할 수 있습니다

Splunk의 폭 넓은 응용 프로그램과 설치 용이성으로 인해 응용 프로그램이 엄청나게 다양해졌습니다 빅 데이터 분석 분야에서 널리 사용됩니다 로우 프로파일의 대용량 데이터 회사에서 가장 보편적 인 기술 중 하나에 이르기까지 첨단 기술 기업에 대한 탄탄한 영향력을 창출하는 데 성공했습니다 이제 실전 연습을 살펴 보겠습니다 데이터 추가 방법 Splunk 도구에서? 먼저 Splunk 관리에 로그인해야합니다

당신의 방식으로 오는 기회 이 기술을 배우면 가까운 장래에 성공할 수 있습니다 뭘 기다리고 있니? Intellipaat Splunk Training 과정에 참여하여 Splunk 전문가가 되십시오 이 과정은 웹 로그 분석, 디자인 보고서 및 차트를 이해하는 데 도움이됩니다 또한 Splunk 배포에서 서버 구성이 수행되는 방법을 배우게됩니다

우리가 토론 한 내용을 요약 해 보겠습니다 오늘 세션 : 우리는 Splunk의 필요성에 착수했습니다 Splunk과 그 구성 요소는 무엇입니까? Splunk의 작동 메커니즘과 사용 사례에 대해서도 논의했습니다 Splunk에서 사용 가능한 다양한 직업 옵션, Splunk를 사용하는 다양한 조직 기술 및 실무 연습은 데이터를 입력합니다 이 비디오를 시청 해 주셔서 감사합니다

문의 사항은 언제든지 문의하십시오

Apache Kafka Tutorial | What is Apache Kafka? | Kafka Tutorial for Beginners | Edureka

안녕하세요 여러분! Edureka의 Subham입니다 오늘 세션의 주제는 카프카 자습서입니다

따라서 아무런 지체없이 오늘 세션의 의제를 살펴 봅시다 이해하는 것이 중요하다고 생각합니다 기술의 필요성 이제 메시징 시스템의 필요성부터 시작하겠습니다 그런 다음 Apache Kafka와 그 기능을 이해할 것입니다 Kafka 튜토리얼을 더욱 발전시켜 우리가 다른 것에 대해 배울 것입니다

Apache Kafka의 구성 요소와 아키텍처 마침내 우리는 Apache Kafka를 설치하고 배포 할 것입니다 단일 노드 단일 브로커 클러스터

Microsoft Power BI Premium: Building enterprise-grade BI models for big data – BRK3107

>>> 안녕, 누구나 좋은 아침

이거 기분 고맙다 아침 나는 기독교이고, 프로그램이다 매니저 엔터 프라이즈 기능을 살펴 봅니다

POWER BI, AZURE SERVICES, 특정 종류의 FOCUSING OF KIND OF BI PRO 개발자 기능 확장 성 및 관리 성 그리고 프로그래밍 및 애플리케이션 라이프 사이클 이 유형의 관리 및 소지품 그래서 우리는 많이 일어나지 않았다 지금 당장이 공간에서 앞으로 찾고 있었어 이 세션은 내가 이기기를 원하기 때문에 너는 알았어 너보고 싶어

이 기능을 사용하는 방법 내가 가지고있는 많은 희생자들 최근에 기본적으로 완료했습니다 바이올렛이 나왔어 일부 주변의 HYPE가 많이 없습니다 특징은 있지만 너무 많은 사람은 아닙니다

실제로 설정하는 방법을 보았습니다 위로, 오른쪽 내 일차 목적 이니? 교육 오늘 – 교육 당신은 그것을 설정하는 방법을 안내합니다 나는 가지 않을 것이다 – 나는 얻을 수있다 조금씩 움직이기는하지만 위험하지는 않습니다

내가 아는 한 많이 왔어 이 중 일부에 대한 주해 풍모 나의 일차적 인 목적은 교육이다 당신들 알았어, 너는 그걸 깨달을거야

– 그 방법은 마이크로 소프트 우리 제품의 위치를 ​​잡았습니다 쪽으로 최근에 우리가 가진 것 같아요 기업을위한 좋은 서비스 BI 우리의 서비스는 20 년 오래되었습니다 올해

우리는 매직의 지도자였습니다 20 년 동안의 사분 그 큰 요인이되었습니다 그리고, 당신도 알다시피, 그것은 정말 잘 짜여진 플랫폼 기업용 BI 기업가 정신과 관련하여 무엇을 의미합니까? 소유하고있는 BI가되고 IT가 관리합니다 권리

프로그래밍 가능하고 스크립트 작성 가능 , FOR 신청 라이프 스타일 관리 힘 BI를위한 목적 사용성을 촉진하기 위해 엔터 프라이즈에서 SEMANTIC 모델 조직 거대한 조직이있는 경우 단일 반 모델의 재사용 더 크고 복잡한 확장 성 요구 사항, 관리 요구 사항 더 위대 할 것이다 그가 어떻게 위치를 잡았는지, 전력 BI는 – 정확합니다 새어 나는 20 년 오래되고 오래되었다고 말합니다

많이 말하는 군 하지만 힘 BI는 정말 빠릅니다 진정한 지도자가 되십시오 SUBSERVICE OR MODERN BUSINESS 지능 공간, 그리고 당신 아시다시피, 당신이 보았다면 최신 매직 쿼드런트, POWER BI 우리의 큰 요인이되었습니다 마지막 순간을위한 위치 – 너도 알다시피, 지난 3 년 이상

괜찮아 그래서 – 우리는 종류가 있습니다 분리 된 기업 BI 및 자체 서비스 BI 우리가 보았던 것은 그것이 아니라는 것입니다 그만큼 분명합니다

BI의 방식의 다음 종류는 IF입니다 정말 비즈니스와 IT 함께 일하고 우리는 A를 보았습니다 많은 고객이있다 둘 사이의 틈을 연결하십시오 제작품

그래서 IT는 많은 감각을 갖습니다 서비스 기능을 가져오고 그들에게 하나씩, ALL-INCLUSIVE PLATFORM BEING POWER BI 및 POWER BI PREMIUM 너에게 줄 것이다 기업용 워크로드 및 셀프 서비스 워크로드 A 단일 플랫폼 기본 서비스와 기본 서비스 힘 BI를위한 통합 생태계

그것이 바로 그 비전입니다 우리는 가고있다 그리고 우리는 만들고있다 그 안에 아주 중요한 스트립 지시 – 우리는 실제로 가지고있다 실질적이고 진지하게 그 안에 중요한 스트라이드 다음 여섯 개 방향 MONTHS 괜찮아 ? 그래서이 지점에,이 곳은 나는 보통이다

해야 할 것 데모 나는 시간을 가지고 15 분, 하지만 이미 바이러스가 생겼습니다 그것을 본 사람은 누구나 알았을 것입니다 내가 설정하는 방법에 집중하면서 위로 – 당신이 알고있는, – THE 큰 데이터를위한 BI 당신

아주 많이 고마워요 그리고 지금 나는 묻는다 REVERSE QUESTION 누가 보지 않았습니까? 너는이 질문들을 생각 해왔다 간접적으로 배타적이어야합니다

너는 해칠거야 WHO NOT WHOIS 데모를 보았습니까? 와우 나는 여기에 토네를 짓고있다 괜찮아 그래서 – 실제로 거기에있다

FAIRLY 중요 번호 켜기 양쪽 모두 그래서 내가해야할 일 통과하지 마라 전체 데모 및 교육의 상당 부분을 사용하십시오 너 완전 해

TRILLUM ROSE DEMO 이 링크를 보러 갈 수 있습니다 그것의 기록 그러나 나는 너에게 빠른 것을 줄 것이다 그것의 버전, 그 때 우리는 할 수있다 방법 설정에 들어가기 – 어떻게 이 유형의 설정 데이타베이스는 크라우드 소스를위한 데이터입니다

쿠리어 서비스 및 드라이버 그 발사하는 스마트 폰 앱을 가져라 각자의 위치 드라이버 표 A 개별적인 위치 IS 위치 측정 값입니다 내가 여기에 있으면 행

알다시피, 모든 것이 보입니다 이 문제에 대한 대처 캔버스 얼마나 행합니다 내가 그것을 수령 한 것은 TRILLION ROWS DEMO를 사용하고 IT에 넣기 문맥 AZURE SERVICES S 9 SKU, 24 원인

십억 이 법은 물리학은 줄을 잇습니다 PET 데이터 및 SIS의 법칙을 규정합니다 이 부분은 육체적입니다 불가능하고, 그러나 LO와 BEHOLD WE 이 일을하고있다

휴식 시간 여행을 떠나십시오 매우 빠르고 인터랙티브 – 상호 작용 그리고 나는 바를 만들려고하고있다 채트, 절벽에서 깨어 라 작업 별, 필터 별 시스템을 떠난 운전자 – 죄송합니다, 회사를 떠났으 니 즉시 응답 시간 PETABYTE DATA QUARTER

우리가 할 일은 우리가하는 일이다 너 우리가 알기 론, 파워 빌 AND AZURE 인터랙티브 서비스, 우리가이 번개를 받았다 빠른 성능은 우리가 캐시합니다 데이터를 메모리에 저장하십시오 우리는 데이터와 캐시를 압축합니다

IT INTO MEMORY 생성 된 QUELIES 인터랙티브 한 비주얼 보고, 답변이 반납 됨 알았어, 빨리 우리의 압축베이스에도 불구하고, PETABLET의 한 부분은 많이 있습니다 DATA of 우리는 A의 데이터를 캐치하고 있습니다

포함 된 총계 수준 기억의 작은 조각 그리고 그 길에서 잠글 수 있습니다 전에는 물리적으로 불가능했습니다 다음 질문은 무엇일까요? 사용자가 세부 수준은 없다 은닉처 그 뒤에는 무엇이 있습니까? 음, 그들은 실행하지 않아도 돼

다른 보고서 무슨 일이 일어나는가, 이것은 A를 제출한다 직접적인 질문자 토요타 출처 출처가이 경우에 전원을위한 모든 데이터 소스 데이타베이스에서 데이타베이스에 관한 BI 및 SQL 데이터 방식 하우스 및 A TON OF OTHERS

지금까지 제출되지 않았다 그 자리에 단 하나의 질문 23 노드 클러스터에서 실행 중 배경 내가 A와 똑같은 일을했다면 SDI SPOT 클러스터에 쿼리하십시오 나는 그것을 실행하지 않을 것이다

시간의 관심사, 그러나 나는 의지 할 것이다 너는 알고있다, VAST 사업의 주요 부분 인텔리전스 QUERYINTELLIGENCE QUE RIES가 있습니다 어떤 형태로 통합되었습니다 너는 높은 캐시 히트를 얻을 것이다 RATIOS 90, 9 그리고 너는 TINY SECT를 사용하여 USEUNLOCK 잠금 해제 이온 메모리 할당

D 전원 BI가 90도를 유인합니다 검색어 및 일부 95 개 LEVELAGGREGATION 및 이를 통해 얻은 질문 근원 그 중 하나도 적지 만, 권리 당신은 당신을 보호 할 것입니다

SQL 데이터의 동시 계량 제한 창고와 그 문구들 이를 통해 얻을 것이다 융통성있게 설계 할 수 있습니다 그것을 통해 얻을 수있는 시스템 SOURCE SYSTEM에 더 많은 것이 있습니다 통제 된, 목표 된, 비협조적인 형태의 질문 소스 시스템과의 거래 잘 했어 너는이 밸런싱에 들어간다

자원을 사용하는 건축술 효율적이고 정확한 쿼트 POWER BI WHAT IT 사용 방법 집계 된 좋은 것 QUERIES TRILLION ROWS DEMI의 TOP 이걸 어떻게 설정했는지 보여 줘요 이야기하기 시작하기 그것 슬라이드에 여기에 명시된 바와 같이 그래서 뭐지? THE AZURE 그 (것)들까지 힘 BI 일은 작동한다 7 월의 데스크톱 릴리스는 당신입니다 특별하게 선택하겠습니다

가져 오기 또는 직접적인 데이터 세트 질문 괜찮아 그것은 두 가지의 결정을 내 렸습니다 당신이 수입을 선택한다면, 모두 가져온 테이블 그리고 당신이 직접 선택한다면 문의 사항, 모든 테이블에 있었어 직접적인 질문입니다

대부분의 모델 – 또는 데이터 세트 더 빨리 가져 왔어 공연 당신이 얻은 큰 데이터 세트 도전의 비트 트리니움 행은 필요 없어요 그 (것)들을 위해 몇몇 종류가 있기 위하여 – 작은 비트가되기 위해서는 비용이 많이 든다

관리 할거야, 그렇지? 너는 그 날을 거듭 추려 야해 메모리에 가끔은 가질 수 없을 수도 있습니다 충분한 메모리 또는 실행할 수 있습니다 메모리에, 당신이 원하는 효율적인 평균 사용 기억

귀하의 THRESHOLD IS NOT 필수적으로 TRILLION ROWS 현재 힘 BI 프리미엄, 가장 큰 – THE CAP ON THE DATASET 사이드는 10 기가 바이트입니다 우리는 우리가 진술했다 그 한계로 일하기 주요 단계 중 하나 선거권의 우선 순위 설정 지원 서비스 분석 서비스 더 큰 모델 우리는 저 리프팅을 계획하고 있습니다

10 기가 바이트 제한 및 더 가까이 AZURE 서비스 모델 크기 우리가 원하는대로 메모리 사용법 만족스럽지 않을 수도 있습니다 거기에는 많은 시간이 있습니다 노력과 돈 및 관리 그것을 대체하기위한 순간 데이타베이스는 캐시에, 오른쪽

그래서 더 큰 데이터가 더 많은 도전 과제로 새로운 메모리 캐시 생성 그래서 어떤 복합 모형이 허용할까요? US TO 너가 충분한 기억을 가지지 않았다면 도전 과제가 너무나 많습니다 직접 질의를하는 스위치 그 때 당신은 천천히 있기를 바랐다 특별한 성능 그것이 있기 때문에 큰 모델 제출 됨 – 직접 물음표 르에는 연계 된 질문이 있습니다

모든 사람을위한 자료 제공 사용자와의 상호 작용 보고서에 나와 있습니다 그렇다면 당신은 어떤 사람이 있습니까? 데이터에 대한 성능 문제 전형적으로 질의 7 개월 후에 우리는 지금 – 너는 지금 테이블을 집을 수있어 테이블을 가져야 할 레벨 직접적인 쿼리 또는 가져 오기를 수행하십시오 괜찮아

이 개방은 많은 시나리오를 열어줍니다 둘 모두의 최고를 제공합니다 전통적으로 당신과 같은 세상 하나를 선택해야합니다 기타 및 전체 직접적인 수입품 및 선택 표 수준 은닉처 이 혼자가없는 회분은 매우 유용합니다

특색 예를 들어, 그냥 피킹 할 수 있습니다 가까이에있는 특정 테이블 실업 수당 요건 직접적인 질문이 있으니 가지 마세요 캐시에 그리고 라틴계는 줄이거 나 다른 모든 것 공식 외형 치수 표 보고서를위한 보고서, 시간 단축 매우 빠르다 그러면 너는 가질 것이다

책임감있는 최상의 경험 그래서 이것은의 구성 요소입니다 모듈 기능 우리는 세부 사항으로 갈 것입니다 세포 수는 10 억 개에 이른다

행 우리는의 모임을 만들 수 있습니다 세포 다른 표 셀 셀 AG 그리고 훨씬 적은 비용이 들게 될 것입니다

셀 수는 NUMBER입니다 셀에 10 억, 셀이있는 경우 AG의 데이터 및 지리 정보 ID 수 많은 사람들 당신은 실제로 A를 원할 수도 있습니다 낮은 레벨의 집계 표 그거야 너는 전형적으로 가지지 않을 것이다

집계 테이블의 번들 너는 그 종류가 있다면 당신은 단결시킬 것입니다 하나의 낮은 수준의 회합으로 표 이 특별한 경우에, 이 집계 테이블은 수천의 지리적 위치 똑똑한 신분증 데이터 시트에서 MEGA 데이터 제공 그 엔진을 수행하려면 그 안에 들어있는 질문들 사용자 셀 수의 합계를 요구하십시오 셀스에 대해 아는 것이 없습니다

QUERIES는 세포와 내부 질의 응답 및 수집, 오,이 질문이 AT에 있어야합니다 올바른 분뇨 YEAR AND CITY 그것들은 둘 다 속성에 있습니다 이 테이블은 관련이있다 영업점에서 바로 가기 표

내부 리디렉션 판매 AG 테이블과 히트 메모리 캐시 및 온다 BACK SUPER FAST 꽤 직설적 인 데이터 비트가있는 경우 모델링 배경 천천히 똑바로 본다 당신에게 걸레질은 끝났어 여러 차원에서

네가 몇 군 다차원 회합 이것과 비교 된 백업 이 모든 모임 중개 포인트 및 그림 당신이 이끄는 사람은 누구입니까? 총체적 또는 전체적으로 간단한 모델링 배경 우리가 다른 질문을 제출하면 이 하나는 세포의 합계입니다

완벽하게 이해할 수있는 사용자 판매에 대해 아는 것이 없습니다 AG 영업 활동은 그로부터 벗어났다 고객 이름과 엔진 고객 이름을 알려주십시오

나는 회피 할 수 없다 그 때문에 테이블 특정 판매점 AG는 그곳에 기록합니다 하나의 지형이지만 여러 고객 및 그렇지 않을 것 고객이 아는대로 너무 좋았어 집합 나는 FLY에 착수 할거야

내부적으로, 완전하게 사용자 및 직접적인 질문을 제출하십시오 출처 괜찮아 그냥 날아라 만약 내가 – 줄리엣 행 데모에서 나는 세부 수준 아래로 움직이다

보게 될거야 QUESTIONER TOW HDI SPARK 그 중 하나가 바로 그 것이다 그게 여기에있다 화이트는 여기에 표시되어 있습니다

직접적인 질문 – 멍청 아 우리가 왔을 때 그것은 푸른 색이었다 메모리 캐시에서 충돌하기 권리 그래서 날짜 표가 돌아 왔습니다

직접적인 질문 사이 가져 오기 이것은 중요합니다 – AN 너가 인 경우에 중요한 개념 치수 모델링 사용하기 집합 날짜가 훨씬 더 효율적입니다 이 보석의 역할, 오른쪽, 직접적으로 사용할 수있는 곳 질의 및 수입 제출하고자하는 경우 이 과정을 거쳐 내려갑니다

날짜가 없다면 – 생각하면 그것의 개념적으로 모든 10 끌어 오기 십자가는 행진을 시작하고 조인을 시작합니다 오늘 힘을 합쳐서 힘을 합치십시오 실천에서 그것은 약간의 비트입니다 그보다 더 효율적입니다 우리는 그것에 대해 이야기 할 것입니다

분이지만 갈 수는 없다 조인 또는 작업을 푸시하려면 날짜가 맞지 않으면 출처로 QUERY 별 말이 돼? K와 FORTH 데이터 조회와 가져 오기 사이 전체 셀 또한 밀어 넣음 근원을위한 운영에 의하여 저것 오늘과 영업 AG 1 캐시에서 메모리를 가져옵니다 느낌을내는거야? 실제로 3 개의 저장소가 있습니다

우리가 소개 한 모드 복합 모델 우리는 직접 가져 오기를 가져 왔습니다 그리고 세 번째로 하나의 청동 보석 쥬얼은 바로 이걸 의미합니다 너는 뒤에 입을 수있다

간접적 인 쿼리와 성능에서 중요하다 점 권리? 괜찮아 그래서 우리는 다시 올 것이다 그리고 조금씩 더 깊게 지내라

더 깊고 더 깊숙한 곳 나는 무엇부터 시작 할까? 이 제품은 데스크탑 용으로 적합합니다 치수 모델 치수 모델 조각 및 우리는 질문을하면 어떻게 표시할까요? 큰 데이터 모델로 작업하십시오 당신의 정의에 따라 빅 데이터

SQL 데이터웨어 하우스 및 엄청난 액수의 매우 평행 한 데이터 체계 그래서 보자 나는 넘어서 넘어갈 것이다 이 데스크탑 파일 그래서 여기 모델 생각입니다

이것은 새로운 사람 다이어그램보기 내가 볼 수있는 곳 이 테이블들과 우리가 얘기 할 것입니다 이 작은 비트에 대해 더 알아보기 후에 현재 볼 수 있듯이 모든 것이 직접적인 질문입니다 권리 그건 단지 작동하지만 이미지는 그렇다

판매액이 10 억 라인을 갖는 경우 그리고 캐시에 비쌉니다 대신 우리가 할 수있는 일은 창조적 인 것입니다 이 판매 AG 테이블, 모든 권리 그리고 세포의 골격 너는 그것의 합계라고 생각한다

제품 ID 및 SUBCATEGORY ID 많은 사람들이 거기에 적지 않습니다 교차 결합이 될 것입니다 판매량과 비교합니다 괜찮아

그리고 판매 AG 테이블입니다 숨겨진 숨겨진 이 모든 집계 테이블 숨어 있어야합니다 다시,이 모든 개념은 소비자로부터 방해가되었습니다 현재는 집계 중입니다

PUBLIC PREVIEW 우리는 주간 커플을 런칭했습니다 PUBLIC PREVIEW에 게시 됨 언론의 열기가 뜨겁다 조만간 IT 부서에서 지원 될 예정입니다

매우 빠른 BI 서비스 나는 어떤 일도하지 않을 것이다 엄숙한 날들과 나는 내게 배운다 그 지역의 실수 조만간 IT 부서에서 지원 될 예정입니다

전력 BI 서비스 그 지점에서 IT가 계속 될 것입니다 한 번 마지막까지 공개 미리보기 우리가 원하는 기능 일할 총회 행 수준 보안 있음 버전, 당신은 행할 수 없다 수준 보안 및 모임 동일한 데이터 세트에서

분명히 우리는 활발히 활동 중이다 그와 호기심을 가지고 일하기 조만간 지원 될 것입니다 그 시점에서, 한 번 총회 로우 레벨 보안 기능, 그것은 거의 확실하다 그럴 경우 데이터베이스, 집계 테이블 주소 지정은 불가능합니다 무엇을 의미합니까? 이를 통해 설정된 데이터에 액세스하는 경우 서비스의 행 – 내가있는 경우 청력 모달은 광고입니다

배경의 서비스, 나 DA X를 실행할 수 있어야합니다 집계에 대한 질의 나 자신 때문에 테이블 관리자 이 데이터베이스를 게시하는 경우 힘 BI 서비스 및 간행물 친척과의 관계를 통해 보안 또는 그렇지 않으면 테이블 사용할 수 없게됩니다 IT와 같은 DAX QUERY 실행 OBJECT LEVEL이 존재하지 않습니다 보안이 효과적입니다

분화 촉구 표 나 자신의 짧은 버전 언제나하고 있다고 소리 쳐 통일 테이블 숨김 그 상태로 유지하십시오 집계 테이블은 숨겨져 있습니다 그리고 다른 것을 지적해라

표 그냥 다른 표 모델, 왜 그럴까요? 다른 점은 다르다 다차원 우리가 왜 다른 사람과 만났을 까? 표? 이유는 단지 다른 것입니다 표

여러 가지 이유 이것은 외부와 함께 작동합니다 설계된 협의 나는이 집계를 나타낼 것이다 데이터웨어 하우스의 테이블 ETA 프로세스 및 사용 사용 증가하는로드 프로세스 내 데이터웨어 하우스의 세부 정보 분리 된 상태로 유지하십시오

표 직접 QUERY로 놓고 현재 매장을 사용하여 IT를 최적화하십시오 데이터 창고와 함께 모든 싱글과의 혼자 TABLE BEING DIRECT QUERY, 회람은 그것을 위해 사용할 수있게 만든다 가져 오기가있는 대형 모델 그 사람이 게임 체인지 선수와 함께

다른 테이블의 사실상 허용 그것은 외부와 함께 작동합니다 유지 된 회랑 집계 테이블이 있어야합니다 내 데이터웨어 하우스 준비된 테이블이 있어야합니다

스파크 또는 그 성능 비행 부분의 골목 OF THE 이 테이블 뒤에 쿼리 많은 건축 옵션 그곳에 우리가 아는 한 아키텍처 질문은 절대로 없습니다 하나의 모든 답변을했습니다

많은 건축술을 제공합니다 옵션 이 JUST에 대한 또 다른 포인트 다른 테이블 및 따라서, 증가하는 리프레쉬를 사용할 수 있습니다 이에 증가하는 재생은 기능입니다

그 – 증분 기능 만 테이블 경우 작동합니다 점차적으로 새로워 질 수 있습니다 은닉처 현재 직접적인 쿼리 및 그것이 나에게 그것을 할 수 없다는 것을 말하면서 엄청나게 큰 요점 집계조차도 데이터 세트 탁월한 크기의 테이블 그리고 그것이 될 지점에 증감 재판

당신이 십분이라면 – 년 데이터 세트, 귀하의 공식 적재는 모두를 불러올 것입니다 10 년 후 시간은 그러나 그후에 보풀 변화 한 그날을 불러들입니다 잃어버린 5 일 동안의 예를 들어 데이터입니다 증가하는 재생은 그것을 만든다 큰 돈을 더 많이 싣기에 더 효율적 데이터는 메모리에 저장됩니다 인상적으로 새로 워진 집합 잘 테이블

왜? 다른 테이블과 왜 우리가 이 같은 디자인 이건 집계 테이블입니다 나는 수입을 위해 그것을 원한다 나는 설정하지 않았다 나는 설정하지 않았다

UP THING A 그레이 빙 표 초창기부터 시작하기 청결 슬레이트 이것은 복합체를 사용하는 것입니다 미국을 좋아하는 모델 기능 저장 모드 저장 나는 그것을 수입하고 싶다

처음으로 온 것, 오하이오 몇 가지 메시지는 여기와 테이블이 필요할 것입니다 보석 그리고이 책상은 의무 데스크탑의 주요 기능 이것은 고도로 조언할만한 것입니다 고객 상태 및 제품 카테고리 그리고 그걸로 관계와 그 계획 그 테이블은 무엇입니까? 예정대로 혜택을 얻으십시오 가져 오기와 동시에 유품을 그렇다면 우리가 직접적인 질문 – 그럼 어떻게 되나요? 우리는 직접 질의 할 수있다 우리가 있다면 직접 질문하기 가져온 데이터 제공 및 훨씬 더 효율적이다

해결책 당신이 가진다면 정말 도움이 될 것입니다 이 대용량 데이터 세트 AZURE와 잘 어울리지 않습니다 50, 150 개의 테이블이있는 서비스

100 개의 탭이있는 경우 1 개가있는 경우 그 르 모델 직접 간다 당신의 데이터로부터의 질문 창고와 캐시 테이블 데스크탑이 최소 크기 설정해야 할 사항 보석 무언가를 절약하십시오 이것들은 그 테이블입니다

보석에 맞추기를 원합니다 ONES 그래서 내가해야할 일은 – 이 새로운 다이어그램보기는 나를 허용합니다 세트의 속성을 설정하려면 하나의 공통 속성 이 두 가지만으로 시작하십시오

이 보석으로 세트해라 그리고 그것은 새로워 질 것입니다 거기에있는 데이터, 그리고 그들은 그대로 – 직접 검색어 또는 수입 지금 우리가 돌아올거야 여기에 설정하고 수입 다시 생각해 냈어

이것들은 설정 될 필요가 없다 보석 이 세 가지 그리고 저기로 가세요 잠재적 인 보안 위험이 우리에게 미칠 것입니다 나중에 얘기 해봐

전적으로 개인 정보 보호 관련 수준 및 검색어 전원 쿼리 지금 우리는 저장 모드를 설정합니다 권리 이 지점의 수입 표 내가 수정하면 새로 고침이 시작됩니다 원했다

그리고 내가해야할 일 바로 가기 총회 대화 이것이 내가 셋업 한 곳이다 통합 맵핑 이 모든 것이 내가 말하는 곳입니다 QUELIES GET을 얻는 엔진 영업점 AG로 리디렉션 됨

당신이 볼 수 있듯이, 열 여기 판매 AG에서 포함 된 테이블 외래 키 나는 떠나기 시작할 것이다 혼자 외계인의 열쇠 이 모델들은 필수적이지 않다 당신이 외래 키

우리는 그걸로 돌아갈거야 조금 늦었다 내가 뭘 봤는지에 대한 예외 그리고 우리는 그걸 다시 할 것입니다 나는 홀로 남을 것이다 자동 날짜 키를 말하지 않기 열쇠에 의해 그룹화된다

셀 또는 날짜 키 나는 그 일을 바로하지 않을 것이다 지금 그래서 나는 그것을 단지 제거 할 것입니다 나는 아래로 곧장 갈 것이다

실제 총체적 가치 괜찮아 우리는 CELL 금액을 얻었습니다 약간 집합

우리는이 계산해 봤어 데이터 유형에 대한 위반 및 다양한 기타 검증 AM에 대해 이야기하지 않을 것입니다 지금 테이블 행 합계입니다 똑바로는 안된다

1 대 1의 관계 DAT 기능 우리는 그걸 꼭 보게 될거야 분 SAYS의 판매액 합계 이 판매액은 판매 AG 테이블은 준비되었습니다 그것에는 판매의 합계가 있고 판매 표의 금액 이 세 가지 기본 정보에 의해 그룹화 됨 열쇠 권리

그래서 우리는 앞으로 나아갈 것입니다 매상 매상 양 괜찮아? 매우 직설적 인 직급 스트레이트 TFORWARD 단위 가격 합계

이것은 다른 미터법입니다 세포 세부 테이블 괜찮아 우리는이 사실을 말할 것입니다 의 합 판매하지만이 시간은 판매하지 않습니다

금액, 그것은 단위 가격이며 이 계정은 SUM이 아님 – SUM이 아닙니다 판매 단위 계정 가격 AND LASTLY 우린 이걸 가지고있어 특별 한

줄이 있다면 영업 표 괜찮아 테이블을 지정했습니다 DAX 계정 손실 기능 그걸 이끌어 갈거야 통합 매핑

너를 볼 때 너는 볼거야 보고서에 실린 금액과 그 정보 할머니는 줄을 감쌌다 카운트 기능 사용하기 그 계산 표 사용 행 매핑 괜찮아

지금은 그게 전부예요 할 일 우리는 여기에 다시 올 것이다 순간 어서 가다

과 신청하고 내가 무엇인지 지금해야할 일이 QUERY입니다 DATASET 및 DAX STUDIO 사용 히트 할 때 실제로 기능을 없애라 THE – TO DETECT 날씨는 당신이 캐시를 얻고있다 안타깝게도 DAX STUDIO는 공개 소스입니다

도구와 위대한 닥스가 많이 있습니다 디버깅 기능 포함 및 포함 – 포함 우리가 골목에 닿을 수 있는지 우리가 할 첫 번째 일은 이 쿼리를 실행하십시오 이 검색어는 간단히 묻습니다

연간 매출액 합계 에 속한 성질 히트 수있는 날짜 치수 은닉처 알아 보자 우리는 우리의 연구 결과를 얻었다 타이밍까지 과

괜찮아 괜찮아 그래서 IT – 내가 보여준 것입니다 캐시 히트있어 나는 왜 그것이 아닌지 확신하지 못한다

SQL 표시 내가 다시 만나게 해줘 이 괜찮아 우리는 사기가 있음을 보여줍니다

XM SQL을 IT에 메모리 캐시의 데이터 그렇게 즉시 더 이상 어떤 것도 찾고있다 그것이 캐시를 타격했다는 것을 압니다 영업 표는 직접 QUERY입니다

그리고 판매 표는 수입품이다 그리고 분명히 영업 AG 테이블 및 직접적인 질의를 실행하지 않았다 출처 우리는이 손재주를 가지고있다 되감기 이벤트 이것은 확장 된 사건이다

침입자와 안내자가 함께 할 수 있습니다 우리는 일치를 얻었습니다 IT가 미국에 대해 더 자세히 설명합니다 당신은 – 슬픔을 알았습니까? 실제 질의 및 – 우리가 가지고있는 칼럼 매핑 익숙한 나는 실제로 프로 바이더가있다 잘 실행

그러면 너는 무시할 것이다 맨 위에있는 스터프, 너는 할 수있어 이 질문에 대한 답변을 찾으십시오 지금 그리고 우리는 총 테이블을 얻었다

일치하는 것으로 다시 채우고 이것은 데이 팩 엔진 질의 및 사용 프로필 확장 이벤트 괜찮아 알았어 지금 나는 가고있다 이 쿼리를 실행하려면 대신에 똑같은 질문 그것도 합계를 요구하고있다

판매하지만,이 시간에 의해 그룹화 상품명 우리는 데이터를 가지고 있지만 이걸 가지고있어 제품 이름으로 시간 그룹화 제품을 잊어 버린 경우 여기, 그리고 이건 안돼 – 이것은 설상력이 아닙니다 판매 AG 테이블을 명중 할 수있다, 오른쪽, 그것은 하위에 관련되기 때문에 제품 카테고리 및 될 수 종류를위한 많은 제품

따라서 사기는 아니지만 SQL 미국의 직접적인 QUERY SQL 표시 QUERY가 제출되었습니다 비행장에서 우리가 재 포장에 가면 여기에있는 사건 너는 그 시도를 볼 수있다

실패한 괜찮아 그래서 모든 것이 우리처럼 일하고 있습니다 예상 할 것이다 똑바로 간단하지만 개념을 비난했다

괜찮아 그리고 지금 나는 가려고한다 이 사용 시간에 대한 다른 질문 COUNT 행 계산 테이블 행은 IS 여기로 이끌어 갈 것입니다 그리고 여기 우리는 검사를 받았다

메모리 캐시 및 가져온 메모리 매치 테이블 리 레이드 녹이다 COUNT 행 수위 행 수 질문자를 실행시켜 주셔서 감사합니다 THE AVERAGE를 요구합니다

이것은 내가 어디에서 언급하지 않았던가요? 총회 중 하나에 하나 DAX 집계 기능 기능 우리는 아무것도 설정하지 않았다 평균 및 그것을 준비하는 것이 어렵다 – 평균 집계 열에 입력하십시오 집계 테이블,하지만 흥미 진진한, 우리가 이걸 실행한다면 QUERY, 우리는 여전히 AG HIT를 얻습니다

스캔 및 되감기 오른쪽 일치를 찾았습니다 그래서 어떻게 작동합니까? 이 일을 한 이유는 우리는 단가의 평균값과 만약 그렇다면 돌아와 기억하고있는 단위 가격은 우리가 SUM의 양쪽 모두를 설정하는 칼럼 그리고를위한 것 WHOOPS

합계와 회계 내부적으로, DAX AVERAGE 기능은에 의해 처리됩니다 엔진 그리고 엔진은 가고있다 내부적으로 SUM과 바로 그걸 나누세요 그래서 내부적으로 A를 생성 할 수 있습니다

SUM에 대한 별도의 하위 쿼리 그 사람의 수는 여전히 집합 SO 평균은 잘 작동합니다 최대 계정이 아님 다른 DAX가 있습니다 작동 할 수있는 기능

그리고 다음에 내가 갈거야 실행은 분명한 수치입니다 설 정하면 지구 카운트가 적용됩니다 AG HIT NOT 멀리 가지 마세요

그것은 AG와 우리가 할 수 있지 않은가? 이 주소를 지정하십시오 이것에 관해서 이야기 해 보자 제출 됨 데이터 쿼리 및 사용자 DISTTINGTD를 참조하십시오 여기서 질문하기 그래서 우리는 무엇을 할 수 있습니까? 질문

분별력을 위해 우리가하는 일 우리는 분별력을 요구하고있다 고객의 수 스키 늙은 통역 대화 훌륭한 열쇠로 관리하십시오 AG HIT를 얻으십시오

엔진은 똑똑해졌습니다 GROUP BUYS ON을 (를) 지정하지 않았습니다 열쇠와 내가 알고있는 건 알았어 그룹 AG와 설립 관계 나는 AG와 IT JUST 만 명중시킬 수있다

공장 번잡함 및 판독 가능성 자신 만의 – 귀하의 의지에 따라 독자의 이해 의 IT 그룹 구매 판매 자동 날짜 키 그룹 별 판매량, 고객 키 AND GROUP BY -이 하나는 영업을하지 않아도 꼭 가야합니다 제품을 얻는 제품 부대 키 최종 키는 제품, 부대 키

우리는 실제로이 일을 할 수있었습니다 이걸로 우리는 고객 키가 A 인 엔진 GROUP BY COLUMN 그래서, 그래서, 우리는해야만합니다 거기에는 모든 가치가 있습니다 고객 키별로 그룹화해서는 안됩니다

그것이 모든 것을 가지지 않는다면 그 안에 가치 그것이 모든 가치를 가지고 있다면 거기에, 실행에 대한 분별력 질문을 식별하고 실행하기 대접 테이블과 호프만 GO 센스가있는 경우 저장하십시오 만약 내가 그 분별을 실행한다면 COUNT WE 데이터와 웹에 대한 스캔 결과를 얻습니다 일치를 찾았습니다 그럼이게 쓸모있어

대본 어떤 분별력 QUERYERY 직접 쿼리에서 수 있습니다 천천히, 그리고 – 나만 오전 그 점을 지적해라 COUNT 명은 좋아지지 않을 것입니다 모든 세포질의 은총 분별력 문제

데이터를 캐시에 저장하는 경우 메모리 A DISTNCT COUNT 문지방 두 사람과 다섯 사람 사이 백만 개의 가치 가치가있는 곳 너 히트 겠어 어떤 일을 시작하십시오 성과 문제 판매액이라도 10 수백 개의 행이 캐시 된 테이블 MEMINGRY와 3 천만의 열쇠 고객 가치관의 중요성 개선되었으므로 3 ~ 4 백만 달러를 가질 수 있습니다 AG 테이블에 놓인 줄은 10에 액세스하는 것보다 낫습니다

백만장 자 테이블 메모리에 알았어 그럼에도 불구하고 아직 – 일부 DISTINCT COUNT로 제한 이 경우 세부적인 테이블 직접적인 질문입니다 당신은 오래도록 개선 할 수 있습니다 그룹을 설정하면 – THE DISTNCT VALUES 그리고 너는 완전한 목록을 가지고있다

DISTINCT VALUES의 집계표 괜찮아 괜찮아 여기에 마지막으로 쿼리 -이 하나 우리는 HIT 9 AG를 기대합니다 이미 우리가 봤기 때문에 판매액 합계액 HIT THE AG

그리고 그것은 AG를 친다 나는 이걸 보여주고있는 이유 야 이것은 조금 더 많은 것 복잡한 측정 또는 계산 우리가 가져 가고있는 카라테 판매 합계와 그것을 나누기 줄의 수는 없습니다 단순한 합계 대책, 권리 이것은 복잡한 조치이다

점수로 나눈 의견 차이 TH의 비율로 다중 곱하기 이자형 다른 사람 한 명당 표 동부 표준시 CETERA, 동부 표준시 내부적으로,이 복잡한 대책 개념적으로 A가 개발 될 것입니다 Folders를위한 LOGICAL QUERY PLAN SUM MIN-MAX 계정에 이르기까지 정보가 없으면 볼 수 있도록 실행하십시오

각 기관에 대해 AG에 도달 할 수 있습니다 하위 쿼리 의 합을 위해 한 번만 셀 및 계정에 대한 한 번 행과 IT가 그것을 결정했습니다 그것들 둘 다에서 얻을 수있을 것입니다 캐시하고 히트

하지만 물리적 질의 계획은 다른 비트이지만, 논리적으로, 너는 어떻게 생각할 것인가? 그것 잘 대처합니다 괜찮아 괜찮아 나는 가봐야 겠어

고마워 많은 감사합니다 정말 고맙습니다 이것은 – 이것은 거대하다 – 나 의미, 나 – 나는 모두가 아니다

내가 좋아하는 사람처럼 느껴졌다 열쇠와 물건, 그러나 이것은 RIT는 가장 큰 게임이다 인터랙티브 용어의 변경자 내 큰 데이터 분석 역사 속에서의 여론 세상에, 너 알지 이것은 거대하다 나는 이것이 의미하는 바가된다

인터랙티브 분석 그 당시의 방대한 데이터 전에는 불가능합니다 이것은 진정한 게임 체인저입니다 그리고 나는 내가 진실이라고 생각한다 지금 당장 시위가 나온다 어떤 것보다 더 간단합니다

보다 향상된 성능 우리가 제공 한 기능 GRA GREGATION AND MAS 에스 치수 나는 우리가 무엇을 요약 할 것인가? 을 통하여 보석에 관한 첫 번째 이야기 저장 모드 나는 이것을 요약하고 싶다 이것에 대해 생각하는 방법 그것의 개념적 방법 가질 수없는 힘 BI 허용 힘 BI에 힘을 실어 라 측면

그것은 JOIN과 그 것을 밀어 넣을 수 있습니다 아래쪽으로 작업 그룹 더 많은 소스 실력 있는 보기를 위해, 우리는 모형이있는 경우에 판매액 10 억 달러와 마찬가지로 질의와 데이터 테이블에 올라라 가져 오기입니다 현재의 건물에서, 당신은 많이 갈 수는 없습니다

관계,하지만 너무하지 진화 한 BI의 먼 미래 데스크톱 너는 그렇게 할 수있을거야 이 방법에 대해 생각한다면 IT가 작동합니까? 실적 OMENTMIZEED 당신이 그것에 대해 생각한다면 모든 10 억의 행을 가져올 것입니다 DQ 모드의 영업 테이블에서 그리고 얻는 힘 BI에있는 JOIN를하십시오 날짜 테이블 및 모든 날짜 데이터가 메모리입니다 약간의 연습에서 조금 더 보다 효율적으로 생성 그 원인이 펠러 인 경우 근원에 아래로 밀 것이다

그 방법은 파워 쿼 리입니다 이 교차 소스를 사용합니다 그리고 그것들에 의존하는 전원 조회의 개인 정보 보호 수준 필터 – 당신이 어디서 왔는지 모든 필터 회원 질문 어느 쪽도 효율적이지 않다

인원 제한 너는 그걸 넣을 수있어 필터 IT는 아주 많습니다 SUM 그룹을 밀어 붙일 수있는 효율성 999의 출처로 사례

대신 수행하려는 작업 요일은 보석입니다 QUESTIONER 고맙습니다 너는 날짜 테이블 만 만진다 메모리 팩트 테이블의 다른 것들 날짜 속성으로 그것은 메모리에 반환됩니다, 요청하는 쿼리를 실행합니다

연간 매출 합계, 그 합계 운영에 의한 그룹이됩니다 소스 아래로 밀어 넣습니다 모든 권리, 그래, 다시, 그냥 너 – 위험을 피하기 위해 전력 BI를 허용합니다 힘 BI에 JOIN을하기 위하여 훨씬 더 많은 쪽 실력 있는 여기에 기본 규칙이 있습니다 – 그리고 집계는 이것을 요구한다

AG Hit를 얻으려면 만약 당신이 관계가 있다면 그 (것)들에 따르지 않는 규칙 너는 얻지 못할거야 총집합 이것은 객실의 요약입니다

단일 출처 관계에 관한 테이블이 될 수있다 보석을 얻는 이유는 무엇입니까? 크기는 – THE 치수 표는 보석입니다 테이블 그게 복잡한 이유는 모델의 선전 보석 저장고는 최고입니다

유능한 그건 그 데모를 요약하자 관계가있는 것으로 예언 된 보석 치수 표 및 들어가기 이민 및 설정되지 않음 그룹 별 열 우리는 아직 히트를 얻고있다

수와 함께 외국 열쇠와 분별력이 현저하게 높았으며 AG 히트와 러닝 얻기 DAX STUDIO 및 TRACING의 DAX 우리가 얻은 것과 똑같이 AG 조회수 또는 아니요 그리고 우리는 안으로 움직일거야 우리가 설정하는 방법의 순간 큰 데이터 모델입니다 큰 데이터 모델 큰 데이터 – 데이터웨어 하우스

언제 내가 큰 소리로 말할 때 큰 데이터를 말할 것인가? 데이터 천천히 다르게 형질 우리가 그걸로 굴러 갈거야 나는 잠시 멈추고 싶다 누구도 그 질문이있어

– 내가 커플을 데려 갈 수도있어 질문들 나는 얻는 내용이 많다 그러나 치수에 관한 질문 원하는 경우 모델링하거나 할 수 있습니다 똑바로 움직여 라

확실한? 예 예, 내가 이해한다면 메모리에 대한 질문 집계 테이블, 설정 가능 리프레쉬의 빈도 그 테이블에 특별히? 절대적으로 당신은 할 수 있고, 실제로 내가 원하는 다른 기능 우리가 열리고 있습니다 힘 BI 프리미엄을위한 점 아무런 의미가 없을 수도 있습니다 사람들이 지금 당장, 하지만 절 믿으세요 거대한 금액의 AG의 기능 최종 서비스

그것은 당신에게 훌륭한 곡식을 줄 것입니다 통제 – 어떻게 수행합니까? 귀하의 청량 음료, 귀하의 청회 음료 구획과 그 같은 것들 EVEN – 새로 고칠 수있는 것 개별 테이블 또는 개별 파티션 및 전원 BI는 비약적입니다 – 우리는 그 순간에 토론합니다 짧은 대답은 예스입니다 끝내주는 말을해라

곧 출시 될 예정입니다 나는 하나 더 질문을받을 것이다 그리고 계속 움직여 라 예? 그래서 내가 가지고있는 질문 약간의 시간을 요구 받았다 이게이 서비스를 의미합니까? 기숙사에 입원 할 수 있습니까? 그걸 포크 가져 주셔서 감사합니다

의문 아니야 20 번에 걸쳐 서비스가 시작되었습니다 연령 시장의 시장 지배자 설치 횟수

나는 많은 번호를 가지고 있지 않다 이 위로,하지만 절대적으로 20 년 동안의 시장 지배력 그리고 다른 사람들과 가까이있을 가능성이있다 20 년 다른 것은 그것이 무엇인지입니다 파워 빌은 약간의 비트를 구성합니다

힘 BI는 기본적으로 부드럽습니다 서비스 방해가 아닌가? 분석 서비스의 맨 위에 힘 BI에서 사용법 일뿐만 아니라 힘 비 프리미엄은 계속합니다 성장, 아직 분석 중입니다 궁극의 서비스 서비스 약관 서비스중인 제품 그들은 알 수 없다는 것을 알고있다

어서 가라 그래서 거기에는 많은 고객들이 있습니다 SQL 서비스를 계속 사용하고 있습니다 우리는 – 빛을 무시할 것입니다 힘 BI에있는 높은 특징 AZURE 서비스 및 SQL 서비스 서버가 릴리스입니다

모든 기능이 좋아하는 것은 아닙니다 집계는 힘 BI에서만 일어난다 그러나 절대적으로 아닙니다 AP 서비스가 멀리 가지 않습니다 우리는 단지 다음을 원한다 – 여섯 번째 이달, 우리가 실제로 일하고 있습니다

서비스 기능 제공 BI를 발전 시키십시오 SO 힘 BI는 A로 BOMOMES 슈퍼 분석 세트 서비스 그리고 너는 너에게주는거야 – 네이티브 서비스 생태계 당신이 가지고있는 경우에 아닙니다 서비스중인 서비스 힘들지만 너는 내 것이어야한다

대단합니다 그들은 지원 될 것입니다 뜻밖에 AZURE 서비스 중 하나입니다 가장 빠른 성장 AZURE 서비스 이게 다가오는 길은 없습니다

곧 완벽하게 지원되는 Around 장기 하지만 전략적으로, 우리는 – 우리가 원하는 힘 BI는의 가장 큰 것이기 위하여 기간 당신의 질문에 답하는 것입니까? >> 그걸 부탁해 줘서 고마워 의문

한 번 더 묻기 만했다 하나는 자연적이다 다음에 나올 법한 시험을해라 서비스에서 축하드립니다 파워 비엠 프리미엄

정확히 무엇인가? 전략 목표는 달성해야 할 목표입니다 여러분은 쉽습니다 많은 과정들과 침입자와 생명의 통합 주기 관리 및 모든 것 WITH WITH WITH WITH WITH SQL 서비스 데이터 도구 및 소스 그 우리는 그것을 아주 쉽게 만들고 싶어 MOD로 바꾸기 및 바꾸기 파워 비엠 프리미엄

언제 우리가 처음으로 소개 한 ANALYSIS SERVICES 그것은 당신이 할 수있는 큰 거래였습니다 SQL 서비스 만 사용하십시오 PREM 모델 및 서버 설정 서버 이름과 바로 가세요 일 했어

AZURE ACTIVE DIRECTORY AND WINDOWS 디렉터리, 차이점 그것은 단지 노력했다 우리는 똑같은 개념을 원합니다 손쉬운 운반과 이동을 제공하십시오 BI PREMIUM의 힘을 얻으려면 나는이 마지막 질문을받을 것이다

그리고 나서 나는 움직여야 해 그게 다야? 나는 보여주고있다 에서 사용할 수 있습니다 정부의 클라우드 현재는 사용할 수 없습니다 힘 BI 서비스에서

하지만 우리의 개인 프라이드는 없습니다 사람과 그것도 곧있을 것입니다 그리고 그것을위한 작은 지체가 될 수도 있습니다 정부의 클라우드에 참여하십시오 나는 정확하게 확신하지는 않지만 우리는 이것들을 만들기 위해 절대적으로 계획한다 사용 가능한 기능

전혀 우리는 가고 계속 나아갈 것입니다 지금 깊은 데이터로 돌아 가기 모델링 세계 괜찮아 괜찮아

너무 큰 데이터 모델 그래서 나는 되돌아 가려고한다 TRILLION ROW DATA SET 그래서 이것은 A로부터 데이터를 얻고 있습니다 스팟 클러스터 우리는 쿼터입니다 유산 데이터

모델 여기 – 감사합니다 흠뻑 그건 시험 이었어 나는 너에게 기뻐한다 깨다

나는 여기 트리 륨 줄에있다 데모 그리고 여기 모델 이건 S를 봅니다 활동

TRILLION ROWS 및 그 직접적으로 QUERY와 HDI SPARK에서 나옵니다 집계 테이블은 안으로있다 메모리와 숨겨진 것, 그러나 주요 차이는 A가 아니라 이 단일 관계 전체 모델 이 거대한 데이터 모델들 PETABYTE OF와 거래 할 수 있습니다 데이터 그들은 PETABYTE에 가입하지 않았습니다 데이터가 매우 잘 설정되었습니다

이것이 무엇을 의미 하는가? 효과적으로 FACT 테이블 모든 치수 특성 그것을 비장하고 저장했다 AZURE DATA LAKE STORE의 파일 그리고 데이터 호수에서 그게 – 그건 여기의 특징 우리는이 모델을 가지고 있지 않습니다

우리는 관계에 의존 할 수 있습니다 테이블에서 테이블까지 사실 표 우리가 할 수있는 일은 우리가 할 수있는 일입니다 이 테이블을 생성하고 생성하십시오 IT 스파크 매일 밤 스파크 쿼리 실행 이 집계를 생성하는 테이블 및 테이블로 존재 스파크와이 표가 나옵니다

TRILLION 줄에서 내려 – 이 특정 1 대 168 수만원의 크기 수백만에 달했을 때, 너 평소에 얘기하고있어 기가 바이트 또는 그 이상의 수 메모리와 10 기가 바이트 힘 BI 프리미엄과 우리는 계획한다 그걸 살면서 여전히 1

68 억 원 하지만 그게 사실 이니깐 TRILLION, RIGHT와 비교되었습니다 우리는 그렇게 작은 것을 어떻게 얻습니까? 우린 너무 작아 높은 바의 농도를 제거하십시오 열

그냥 경리와 길 찾기 다른 칼럼은 날짜입니다 우리는 약간의 드라이버를 가지고있다 소수의 소수 민족 교단 하지만 그 외 모든 것 ELSE는 카테고리를 따릅니다

카테고리 또는 억 양동이 – 직업의 마일 범위 다양한 가치의 숫자 열 상대적으로 매우 낮음 열은 A에서 내려옵니다 1 천 6 백억에 백분율 경비와 길거리

우리는 그걸 제거하고 있습니다 크기를 줄이고 줄이기 엄청나게 중요합니다 그 다음에는 QUERY THAT THAT 이 치수에 따른 그룹화 속성은 캐시를 공격합니다 로지 또는 길 찾기를하지 마십시오 내가보기에 내려 가면 개별 이동 포크 리프트 GALE JOHNSON이 그랬을거야

직접 질의를 실행하려면 불꽃 여기에 매핑을 설정하려면, 그것은 절대적으로 어땠습니까? 우리가 – 죄송합니다, 절대적으로 선택적인 곳으로 치수를 입기 전에 미국은 선택의 여지가있다 그룹 구매 우리는 아직 설정하지 않았고 GETTING AG HITS

여기에 절대적으로 필수적입니다 이걸 반복해라 속성 그룹의 매수마다 하나의 싱크 세부적인 테이블 생산성 그리고 세부 사항 열은 연관된 열 여기 아래쪽에 – THE가 있습니다

운동 우리는 합계와 위치를 얻었다 현재 테이블은 COUNT입니다 그게 트리튬 – TRILLION ROWS NUMBER 그래서 기본적으로

알다시피, 두 가지 옵션이 있습니다 이리 너는 의지 할 수있어 관계 또는 경찰 경찰관 케이 외형 치수 치수 표 하나는 그들에 더 가깝다

모델 너는 이것들을 혼합 할 수있다 원하는 경우 기술 대집 테이블이있는 경우 한 달에 당신이 원하는 레벨 그 달에 맞 춥니 다 귀하의 비공식적 인 속성 데이터웨어 하우스의 테이블

당신이 의지 할 수밖에 없었다면 그 관계를 평등하게 두 개의 분리 된 표를 하나씩 나오십시오 에서 AG에 들어가는 분량 표 내가 준비 할거라고 말 할거야 월, 분기 및 연도 집계 테이블과 SET 그 위에 매핑하여 그룹을 UP 다른 사람들을위한 그룹 설정 치수 표와 IT 계속 작동합니다 혼합 및 일치

치수 표 정상화하고 싶지 않아요 에이 작은 BIT도 알 수있다 풍경이있는 너는 선택권이있다 어떻게 할 수 있는지 융통성있게하십시오

말이 돼? 괜찮아 알았어 그래서 우리는 정말 좋아 시각 >> SPILL이 (가)에서 벗어났습니다 집계 및 이동 우리가 가지고있는 다른 큰 특징들 구체적으로 전원 공급 장치를 사용합니다

주변 서비스 둘러보기 특징 POWER BI 번쩍 번쩍 번쩍 번쩍하는 질문들 총회는 내가 한 두 가지를 할 것이다 또는 점프 스트레이트 에서 N예요 확실한? 힘 BI 시험 APP에? 전원 BI 덱 스톱 고맙습니다

질문은 얼마나 되었습니까? 기억은 힘 BI 안에 필요합니까? 큰 회사와 거래 할 수있는 데스크탑 볼륨? 좋은 질문 나는 그 곳에서 뛰고 있었다 15 및 20 기가 바이트 사이 너무 낫다 게시 서비스

이건 NOT에서 변할거야 너무 먼 미래 정상적으로는 다른 방법이 될 것입니다 약 증가 기능을 사용하십시오

소비를 줄이십시오 장소 상에서 1 년에서 10 년이 될 수 있을까요? 백만 줄 데이터 세트 및 증대 할 때, 언제 다시 시작해야합니까? DECKSTOP LOAD ONE에서 다시 채우기 데이터의 10 일 좋고 작은 나는 그 서비스에 간행했다 참신한 정책을 요구하고 데이터를 모두 10 년 동안로드합니다

GO, UP, SA, 50 GIGABYTES 또는 어떤 것 이것은 정상적으로 작동하는 방식입니다 그리고 새로 고침과 세트 모든 것을 다하십시오 – 모델링을하십시오 소량의 SET-UPS 및 메타 데이터 일부분 그리고 만약 당신이 그것을 새로 고침 한 서비스 및 호출 정말로 커집니다 IT는 한 지점으로 성장합니다

책상 위에 크게 열어 놓으십시오 우리가 가고있는 곳이야 이 괜찮아 나는 하나 더 질문을받을 것이다

그리고 계속 움직여 라 너는 줄을 사용할 수있을거야 수준 보안 OBJECT LEVEL SECURITY는 회합에 함축 된 의미 표

그래서, 한줄의 로우 레벨 보안 일하면 우리는 이걸 가질거야 기능은 일반적으로 사용할 수 있습니다 당신이 그렇지 않다면 그 지점에서 관리자 및 그것을 통한 액세스 역할 역할 수준 보안 또는 객체 레벨 보안 또는 그렇지 않을 것입니다 규정을 준수하십시오 – THE 집계표

너는 줄을 사용할 수있을거야 보안 너는 로우 레벨을 가질거야 경고 할 보안 필터 통일 테이블 아래로 그리고 사실 테이블, 그리고 거기 그게 당신 일이 될거에요 알고 있어야합니다

유일한 것으로 홍보 할 수있는 것 하나의 테이블과 다른 테이블 최신 세션 커버 한 번은 기능을 사용할 수 있습니다 짧은 대답은 예, 당신입니다 전체 통제 이 테이블에 접근하십시오 괜찮아 그래서 나는 지금 움직일거야

그래서 종말 산업 표준 프로토콜 FOR – 그냥 채택하지 마라 MICROSOFT MICROSOFT는 IT를 시작했지만 다른 것은 시작했습니다 판매자는 그것을 잘 사용합니다

고객을위한 프로토콜 PRIMARYTOOLS로 일차적으로 도구 – PRIMARILY 클라이언트 도구로 작업 할 수 있도록 – 비즈니스 인텔리전스 데이터베이스 권리 그리고 우리가 AXMLA END POINT 일 때 우리가 이야기하는 것 – BY 권리 XLM 종점을 말할 때

우리가 무엇에 관해 말하고 있는지 도구 묶음 POWER BI SCREPTOP 또는 EXCEL이 될 수 있습니다 우리 모두의 경쟁자 제품 및 제 3 자 BI 도구 – 필요 없어 그 (것)들의 무엇이든, 그러나 정당하다 평생 다른 모든 것을 말하십시오 주요 BI 공급 업체 프로모션 연결되어 있기 때문에 연결성 20 년 동안의 시장 선두 주자 이 도구들 모두를 사용하십시오

라 엔드 포인트와 프로토콜 분석 서비스에서 데이터를 얻으십시오 SQL과 같은 관리 도구 서비스 관리 및 프로 필러 및 SQL Server 데이터 도구 SQL 데이터 도구는 모델입니다 제공 – 모델링 도구 AZURE 서비스 이 모든 것은 XMLA 끝점을 사용합니다

POWER BI가 실행중인 서비스 배경 그래서 미국은 엄청난 스트레스가 아닙니다 이 XMLA ENT POINT를 열려면 모든 것을 의미하는 힘 BI 이러한 도구는 자동으로 실행됩니다 전원 BI 및 서비스 우리는 분석 기능 힘 BI 프리미엄 안에

지금 기술 프리미엄 원인 그리고의 광대 한 주요 분석 기능 OPEN PLATFORM 어디 있니? 재사용 할 수없는 그는 남자 틱하고 다른학과를 통해 다른 도구를 사용하고, 경영 성 APIs, ET CETERA 이것은 귀하의 약관에 큰 영향을 미칩니다 알고 계시고, 분석을하시오

서비스 기능 BI 단지 아닙니다 개방형 플랫폼 연결성, 그러나 내가 말했듯이 아피스 실험실 모형이 소개되었습니다 SQL 서비스 2016 분할을 위해 사용 된 INCREMENTAL을위한 관리 분석 서비스를 새로 고칩니다

그러나 IT가 – 그것을 사용할 수 있습니다 커뮤니티 도구 알다시피, DAX STUDIO 착용하고있다 티셔츠 이 커뮤니티 도구들 모두 힘 BI와 함께 일하게 될 것입니다 그리고 – 부유 한 역사가 있습니다

커뮤니티 도구 및 일부 저기서 정말 좋네 그리고 우리는 모든 성찬을 얻습니다 그래서 우리는 테이블 스크립팅을받습니다 출신 언어 SQL 서비스 관리 스튜디오 행정부에 잘 어울린다 펑키 지루한 기능

그리고 AZURE 서비스가 입지 않음 20 SQL 분석으로부터의 힘 서비스 그래서 모든 것이 가능해질 것입니다 너무나 먼 미래에 XLMA 끝까지 전철기 O 민주당 원 – THE XLMA 종점 용 데모 인상적입니다

나는 요약을 요약하고 싶다 새롭게 하다 하루 만에 코드를 실행해야합니다 칸막이를 관리하십시오

증대 된 거래 신선한, 10 억의 행 TEN-YEAR DATASET 새로워보십시오 너는 다시 타고 싶지 않다 매일 10 억 달러 씩 새로워 야해 증가를 설정하려면 새로 고침하십시오

지난 5 일 동안 만로드 당신을 위해 다룰 데이터 데이터 변경, 예를 들어 그래서 분석 서비스에서 BI 전문가에게 쓰기 수천 줄의 수천 이거 관리해 권리 거기에는 중요한 사람이 있습니다 관리,하지만 키 중 하나 서비스의 강점과 사용 그럴 수있는 표적 개체 모델

전원 BI에서, 우리는 이미있다 인상적입니다 YEAR, POWER BI, IT에서 이 단순한 대화 상자로 간주 됨 INCREMENTAL을 지정하는 곳 오래된 정책은 없습니다 너에게 보여줄 시간을주게 지금 책상에 설치하려면 다음과 같이하십시오 너는이 링크에 갈 수있어

그것을 설정하는 방법의 데모 이 대화는 기본적으로 위로 말합니다 이 값을 정의하고 정의 새로워진 정책, 모든 권리 그래서 지금은 말하고 있습니다 당신은 새로 고침을 우리가 초기에 토의 한 서비스 아무 데나 탁상에

데스크탑은 십분 만에 하나가 될 것입니다 데이터 및이 정책을 정의하고 게시 및 새로 고침, 처음으로 새로 고침받을 것입니다 LANGUOR는 10 대를로드 할 것입니다 1 년 및 후속 재실행 지난 5 일을 불러올 것입니다 보기를 위해

마지막 끝의 태블릿 코드에서 RTI 몇 년 만이기 서비스 그것의 추출과 만들기 추출 및 너는 그것의 정밀한 통제가 없다 AG 서비스에 가입하십시오 당신은 대단한 권리를 가질 수 있습니다

쓰기 부분 XLMA ENDPOINTS, 너는있을거야 같은 컨트롤을 입력하십시오 POWER BI 괜찮아

그래서 나는 넘어서 넘어 질거야 SQL 서비스 관리 스튜디오 나는 여기있다 힘을 합쳤다 BI 작업 공간

권리 이것은 SQL 서비스가 아니라 NOT AZURE 서비스 나는 힘 BI에 연결되어있다 작업 공간 및 전체 목록 작업 공간에서의 데이터 세트 그들은 AZURE SERVICES를 보았습니다 모델

기술적으로 그들은 아주 좋다 서비스 모델 서비스는 소프트웨어입니다 분석의 맨 위에있는 계층 서비스 그리고 이것은 거친 스트레스가 아닙니다

거룩한 위엄을 누릴 수 있습니다 BI에 힘을 실어주는 기능 여기있다 – 여기있다 여기에 같은 데이터베이스가 있습니다 작동 공간

괜찮아 그래서 내가 지금 무엇을 할거야? 파티션을 확인하십시오 나는 실제로이 열림을 얻었다 이미 그래서 나는 이 여행 표에 대한 구분

현재 내가 정의한 것은 인상적으로 새로 워진 정책 그 대화와 BI 서버를 서비스에 사용하십시오 그것은 실행되지 않았다 아직 새로 고침 전력 BI 클라이언트는 처리 할 수 ​​없습니다 여러 개의 파티션이있는 경우 하나의 칸막이가있을 수 있습니다

1 년 또는 10 일 안에 그것을 맞추기 책상과 모델의 메타 데이터 나는이 글을 모델, 다른 어떤 것과 마찬가지로 스크립트 데이터베이스와 여기는 그 모델의 전체 메타 데이터 나는 결코 힘을 얻지 못했다 BI와 DID 및 SCRIIPTING 목적 그리고 내가 여기있다 증가하는 상쾌한 정책 나는 그 대화에서 정의했다

괜찮아 그러나 나는 그것을 가지고있다 왜 새로 워진 지 요청했습니다 오직 하나의 칸막이가 있습니다 앞뒤로 가면서 새로 고침하기 힘 BI를 통해 서비스, ​​우리는 SQL에서 그것을 할 것입니다

서버 관리 스튜디오 및 – 분명히 시간 초과를 알립니다 이 프로그램이 실행되는 동안, 이 중 하나를 어떻게 만들어야합니까? 명령 그래서 우리는 공정 테이블을 말할 수 있습니다 나는 완전하고 말하기를 원할 것이다 스크립트

그리고 나도 그럴거야 명령 이 두 가지가 없습니다 매개 변수는 무엇이 아니기 때문에 그들에 대해 알고 계십시오 같은 명령

이 말은 새로 고침 정책 및 다른 사람 효과적인 날짜를 무시하십시오 오늘은 할 수없는 또 다른 일 증가하는 글씨가 새겨 져 있음 POWER BI 그리고 2012 년에이 결말 현재 날짜 이 롤링 관리 창문, 오른쪽 너는 그걸 무시할 수 없어

날짜는 있지만 XLMA 끝점 및 스크립트 언어, 당신이 될 것입니다 그게 끝났 으면 새로 고칠 수 있어요 분할과 생성 예산 부 그것은 각각을위한 분할을가집니다 5 년

너가 정책을 전부 생각하면 내 전체 데이터를 원한다고 여기에 SET 또는 ROLLING WINDOW는 5이다 연령 2019 년 새해를 맞이했을 때 IT는 2011 년을 모두 버리고 모두를 수행합니다 이것은 미국과 그 이후에 – 우리가 가까이에 – 현재 날짜, 낮추기 분계선의 자갈 우리가 얻을 때까지 올라간다 우리가 말한 8 월 13 일 현재 날짜입니다

권리 그리고해야 할 이유 이것은 그것이 유지할 수 있다는 것입니다 계약 만 갱신합니다 마지막 – 나는 그것이 마지막이었다고 생각한다 일순

계약, IT 유지 파티를 가질 필요가있다 낮 시간을 낮추십시오 그리고 우리가 앞으로 나아갈 때, 나는 앞으로 전진 할 것입니다 오늘 우리가 전진하는 동안, IT 새로운 하루와 의지를 낳을 것입니다 기회를 제공하는 기회 동원 T 그가 하루 개월 수 및 월간 4 분기 및 분기 더 큰 압축을 얻고 클리너 사용법

한 번 우리가 이루어질 것입니다 이 새로 고침과 8 월 14 일보기 이거 줘 둘째 그리고 지금은 14 일입니다

너는 내가 여기를 클릭하면 새로 고침 시간 에 대한 그만큼 마지막 10 개 파티션 또는 그보다 더 이전 ONES 전체 데이터를 새로 고치지 않았습니다 세트 가장 최근의 10 일만 정책에 따라, 모든 권리 당신은 훌륭한 곡물 관리를 제공합니다

아주 많이 고마워요 아주 많이 고마워요 이것은 정말 열립니다 필요한 곡물 제어 이 엔터 프라이즈 스케일 관리 모델, 그리고 그것은 – 당신이 알고, 이 미세 곡식을 그대로 사용하십시오 제어

그리고 너 – 그리고 너 또 다른 너야 현재는 할 수 없다 증대 된 새로 워진 것과 함께하십시오 역사 파티션을 새로 고칩니다 너, 너는 모두해야 해

의회 하지만 지금은 2012 년 중 일부를 말합니다 예를 들어, 재실행되었습니다 그들은 회사의 명맥을 가졌습니다 그리고 우리는 계정 필요 – 난 알고 있지 마라

역사적 분할의 상쾌함 십일월보다 더 오래되었습니다 증가하는 범위와 새로 워진 IT 어서 가서 새로워라 전용 20 12 분명히 나는 ​​그것을 완전하게 설정할 것이다 그러나 시간의 관심사에서, 나는 IT를 신속하게 유지하고 싶습니다

그 멋진 곡식 컨트롤 역사적인 구획 증가하는 REFRESH 및 XLMA 끝점 이것은 무엇의 요점입니까? BI를 얻으려고 그것은 시장을 지배 해왔다 대부분의 경우, 수년 동안 PRIMARYFOR MA 뉴욕, 몇 년 전 그것이 잘 작동하기 때문에 이 IT 소유 기업 모델

우리는 있습니다 브라이언 엔터 프라이즈 BI를 POWER BI 그리고 그것을 모두 할 수있는 한 곳 정밀도를 한 곳에서 만끽하십시오 예술품 너는 갭을 연결할 필요가 없다

두 제품 사이 마지막으로 내가 너에게 보여줄거야 정말로 빨리, 나는 아직도 가지고있다 4 분 너무 빨리 당신을 보여줍니다

HOPEFULLY 분의 커플 마지막 질문은 행동과 수명주기 주기 조치 SO – 분석 서비스, SQL에서 모델을 제공하십시오 서비스 데이터 도구 시각적 스튜디오에서 뛰기 혼자만은 당신을 의미합니다 근원과의 통합 컨트롤, 뒤로 롤백 할 수 있습니다

이전 버전 및 가능 그 런 런 오토 빌딩 최신 버전을 얻으려고 모델 메타 데이터의 복장 컨트롤에서 기단 및 자동화 된 건물 포함되는 것들 같은 서비스 새로운 배치를위한 배치 DATASETS XMA의 이온 종말 제한의 커플, 함께 프로그램 성 첫 번째 제한 인스턴스 및 첫 번째 릴리스입니다 요일 및 요일에 나타나는 롤 그 힘 BI의 데이터 세트 롤 업데이트 필요 – 및 자료 출처 죄송합니다, 롤 및 데이터 출처

ROLLS 및 DATA SOURCES 너는 단지 만들거나 갱신 할 수 없다 아주 첫번째 클릭에있는 것들 PUBLIC PREVIEW에 포함됩니다 너는 롤을 만들 수있을거야 및 자료 출처

다른 방법으로는 작동하지 않을 것입니다 첫 번째 릴리스는 단일 서비스 데이터 도구 우리는 단일 서버를 만들 계획을 세웠습니다 힘 BI로 작동하는 데이터 도구 프리미엄과 퍼스트 전통적 응용 평생 잊지 못할 라이프 스타일 워크 플로우 설명 됨 추가적으로, 우리는 변경 사항을보다 쉽게 ​​배포하십시오

환경을 가로 질러 너의 변화의 찬스가 있다면 개발 환경과 능력 개발자가 필요로하는 팀 생산에 버그 수정 정말 빨리 확실하게 할 수있는 많은 돈벌이 귀하의 개발 환경은 비웃는 소리까지 기민한 당신은 측정을 짤 수 없다

네가 필요로하는 정의 이를 통해 당신이 할 수있는 접근법이 있습니다 갖다 지점 관리 및 지점 병합 도구를 평준화하라

지점 조사를 위해 우리는 그것을 더 쉽게 만들고 싶습니다 묶음 병합이 없을 수도 있습니다 조직 역량 우리는 당신에게 선물을주고 싶습니다 – SCHEMESCHEMA DIF TYPE FUNCTIONALIT 와이 모델을 홍보하고 개발 시험 및 생산 POWER BI의 작업 공간

우리는 이것을 확장하고 싶다 모든 힘 BI, 그러나 첫째로 버전은 데이터 세트 용입니다 그래서 우리는 목적지를 가질 것입니다 서비스 대상 작업 강제력 및 데이터 세트, 스켐 차이와 당신이 선택할 수 있습니다 그리고 선택하십시오 배포 할 개별 항목 환경을 넘어서거나 아닙니다 괜찮아

이 경우 숨김 – 건너 뛰기 사물 여기에는 100 개의 테이블이 있습니다 다각에 초점 두 가지 버전 사이에서 데이터 세트 및 피킹 및 선택 건너 뛰기에 대한 개별 항목 볼 수 있습니다 실제로 여기 이 테이블 분파의 무리가있다 그래서 목표는 증가 할 수있다 새로 워진 세대와 내가 원하는 것이있다

새로운 측정법을 배치하십시오 나는 모든 나의 것을 다시 듣고 싶지 않다 데이터 이 테이블을 만지지 마십시오 혼자 떠나십시오

이 부분을 만지지 마십시오 나는 무엇을 선택하고 선택할 수 있는가? 이 제품을 배치하고 수행하고 싶습니다 확인 그리고 이것은 할 것이다 종속성 분석 대상을 비교하십시오 데이터베이스는이 두 가지를 삭제합니다 M 개의 매개 변수 때문에 그 테이블 예를 들어, 그들에 대한 교섭

TELE MODEL SCRIPT SCRIPT 그리고 앞서 가서 목표 및 옵션에 기반 가공, 동부 표준시 수행 할 수 있습니다 CETERA와 나는 상쾌하게 할 수있다 비교하고, 나는 단지 밀어 넣었습니다 안전에 대한 목표를 통해 다음 환경으로 가십시오 괜찮아 SO 신속한 신청 라이프 스타일 조치

다른 오픈 소스 도구 그래 계속 해봐 현재 발표문에는 없습니다 현재 발표문에는 없습니다 네

그래서 이것은 제공한다 너는 너에게 너를 준다 지점의 병합 이 서비스는이 서비스를 제공합니다 너는 그것들이있는 지사의 합병 네가 가지고있는 유일한 선택 세 가지를 보여주지 않습니다

머지 TIM 그리고 나는 더 많이 가질 것이다 질문이 없습니까? 알았어 그래서 나는 그 시간을 가지지 않았다 너 진짜 빨리 보여줄거야

W 죽을 – 다이어그램 스누즈와 함께 테이블과 별거되는 표제에 테이블 지역 및 설정할 수 있습니다 – 내가 했어 내가 할 수있는 것을 보여라 다중 객체 및 세트 저장과 같은 일반적인 속성 방법 기업용 기능 대형 복합 모델 아주 많이 고마워요

[적용] 평가를 기입하십시오 여기 일부 세션 자료가 있습니다 당신이 채우면 나는 그것을 찬성한다

Why Use R? – R Tidyverse Reporting and Analytics for Excel Users

R을 사용하는 이유는 무엇입니까? 첫 번째 R은 Excel에서 보통 1 시간 이상 소요되는 매우 빠른 스프레드 시트입니다 vlookups 및 sum ifs와 같은 항목으로 인해 R에서 초 미만으로 계산할 수 있습니다

속도와 관련이 있습니다 수용력입니다 Excel이 실제로 수천 개의 레코드 만 처리 할 수있는 곳에서는 R이 수백만 개를 처리 할 수 ​​있습니다 지금 기술적으로 Excel은 백만 행의 데이터를 처리 할 수 ​​있지만 계산 된 열을 데이터 세트에 추가하려고 시도한 적이 있다면 매우 빨리 알 수 있습니다 그건 사실이 아니야

이제 이것을 이해하십시오 데이터에 vlookup을 추가한다고 가정 해 보겠습니다 그리고 그것은 백만 행을 가졌습니다 수식을 한번 입력하면 100 만회 아래로 복사됩니다 이는 계산이 1 백만 번을 계산해야 함을 의미합니다

그런 다음 5 개의 열을 조회하면 5 백만 회의 계산이됩니다 당신이 공상에 빠지면 자동으로 일치 수식을 사용하여 열 이름을 찾습니다 실수로 매번 실행해야하는 계산을 1 천만 회로 두 배로 늘린 것입니다 스프레드 시트에서 사람들이 자주 복사 한 특수 값을 복사하는 이유를 만지십시오 R

이 모든 것은 하나의 계산입니다 위험을 줄이면 작업 내용을 동일하게 복제하고 자동화 할 수 있습니다 시각 이제 Excel에서 복사 및 붙여 넣기와 같은 것들을 포함하는 일련의 프로세스 노트가있는 경우 여기서 데이터 세트는이 수식을 삽입하는 새로운 열을 추가합니다 수식을 채우십시오

특별 값을 붙여 넣기 한 다음 수식 범위를 업데이트하여 모든 작업을 다시 수행하십시오 수동 프로세스를 도입하고 작업에 위험을 초래합니다 이제 약간의 VBA를 알고 있다면 잘 생각해 볼 수 있습니다 대신 실제로 이러한 프로세스를 자동화하고 있습니다 일반적으로 이러한 프로세스를 자동화하는 VBA 코드는 R에 비해 약 10 배 더 길습니다

이제 이것을 이해하십시오 R은 데이터와 직접 작동하도록 설계되었습니다 따라서 기본적으로 코드를 지정하는 한 줄의 코드 주위에 계산 된 열을 추가해야하는 경우 VBA에서 비즈니스 로직의 수식을 사용하면 수동으로 수행 할 모든 단계를 효과적으로 코딩 할 수 있습니다 Excel에서 완료 이것이 VBA가 쓰기 시간이 오래 걸리고 실행하는 데 더 오래 걸리는 이유입니다

항상 원래 데이터 세트로 돌아갈 수 있기 때문에 R에서는 위험 요소가 줄어 듭니다 모든 단계 당신이 가지고있는 프로세스는 스크립트의 일부입니다 즉, 로직을 변경하거나 업데이트하고 변경해야 할 경우 신속하게 만들 수 있습니다 몇 초 안에 원본 데이터에서 전체 스크립트를 변경하고 실행할 수 있습니다 시각화 및 대시 보드 R의 시각화는 탁월한 것보다 Tableau와 같은 제품에 훨씬 가깝습니다

Tableau와 같은 것 대신 R에서 시각화를 생성하는 또 다른 이점은 라이센스입니다 소송 비용 만약 당신이 그 일을 누군가에게 보내고 싶다면 당신은 Tableau에서 일하는 모든 공상을해야합니다 pdf 또는 이미지 파일과 같은 정적 형식으로 내 보냅니다 모든 대화 형 작업으로 작업을 보내려면 사용자가 Tableau를 가져야합니다

자신의 컴퓨터에 설치되어 있거나 시작할 수있는 Tableau 서버에서 라이센스를 구입해야합니다 정말 비싸고 당신의 일을 배포하는 것을 정말로 어렵게 만듭니다 당신이 원하면 R로 대화 형 시각화를 보내면 누군가의 것으로 열 수있는 HTML 파일로 보낼 수 있습니다 웹 브라우저 이렇게하면 보려는 의도대로 작업을 훨씬 쉽게 배포 할 수 있습니다 대시 보드의 경우 Excel에서 대시 보드를 동적으로 만드는 일반적인 방법은 슬라이서를 사용하는 것입니다

이제 다른 것들을 구현하기를 원한다면, 일반적으로 VBA를 사용하여 시작할 필요가 있습니다 조금 복잡해지며 호환성이 떨어집니다 이제 슬라이서의 문제점은 필터가 실제로 필터를 커버한다는 것입니다 그룹화 및 요약 및 계산을 즉각적으로 사용자 정의 할 수 있습니다 일반적으로 의미하는 것은 대부분의 Excel 대시 보드를 보면 일반적으로 매우 높은 수준이므로 필터를 적용 할 때도 충분히 포괄적입니다

대시 보드를 그룹 관리 팀에 제출할 때도 괜찮지 만 원하는 경우 대시 보드를 나머지 비즈니스에 배포하기 시작합니다 일반적으로 충분한 세분성이 없습니다 실제로 누구에게나 유용합니다 R에서는 가능한 한 그룹화 요약 및 계산을 쉽게 매개 변수화할 수 있습니다 저 필터들

협동 일반적으로 조직 전체에서 전자 메일로 보내진 Excel 파일을 찾을 수 있습니다 사람들은 변경 사항을 추가 할 것입니다 수식을 추가하면 여기저기서 물건을 바꿀 수 있습니다 발생 된 모든 변화를 재조정하고 조율하기가 어렵습니다

이것은 이론상 최악의 시나리오입니다 Excel에서 변경 사항을 추적하는 것이 더 좋습니다 SharePoint 사이트에서 작업을 공유하십시오 그러나 실제로 추적 된 변경 내용을 적용하고 SharePoint 사이트에 작업 내용을 저장하면 많은 작업을 수행 할 수 없게됩니다 Excel의 기능

또한 SharePoint 사이트에 파일을 올린 경우 실수로 사람들이 변경된 경험이있을 수 있습니다 파일을 가지고 있거나 파일에 들어가서 다른 사람을 잠그지 않아야하는 파일 R을 사용하면 R studio connect와 같은 서버에 작업을 게시 할 수 있습니다 사람들은 자신의 웹 브라우저를 통해 파일을 볼 수 있습니다 파일과 당신은 우연히 그것을 변경해서는 안되는 사람들에 대해 걱정할 필요가 없습니다

분석 팀은 GitHub와 같은 도구에서 변경 사항을 공유하고 추적 할 수 있습니다 GitHub는 파일간에 일어나는 모든 변경 사항을 추적합니다 이제 이와 같은 차이점이 Excel의 변경 사항을 추적했습니다 그것은 R 파일이 비즈니스 로직이있는 스크립트이기 때문입니다 변경 사항이있을 때 비즈니스 로직이 변경된 것을 볼 수 있습니다

이 강의는 Excel 사용자를위한 강의 및 분석 보고서였습니다 이 코스의 나머지 무료 강의는 내 채널을 구독하거나 아래 링크를 클릭하십시오 26 개가 넘는 강의가 포함 된 전체 과정의 재생 목록에 액세스합니다 다운로드 가능한 소스 코드 및 QA 아래 링크를 클릭하여 살펴보십시오 코스 내용에서 특별 할인 가격에 액세스하십시오

200 파운드의 풀 코스 가격에서 생산 된 단 10 파운드