Hadoop Tutorial For Beginners | Big Data Hadoop | Apache Hadoop | Intellipaat

안녕 얘들 아, Intellipaat에 다시 오신 것을 환영합니다 오늘 세션에서 우리는 Hadoop은 무엇입니까? 하지만 실제로 우리가 다른 의문

Hadoop이 실제로 엔터프라이즈에있는 이유는 무엇입니까? 먼저 예제를 통해이 질문에 답한 다음 하둡 그러니 아주 작은 이야기부터 시작해 보겠습니다 그래서 나는 Jeff Mezos,이 전자 상거래 사이트의 CEO 인 Mamazon입니다 기술 친구들 오늘날 우리 조직은 다음과 같이 보입니다

우리는 전자 상거래 사이트를 보유하고 있으며 오라클에서 운영됩니다 우리는 인벤토리를 가지고있다 My SQL에서 실행됩니다 그래서 인생은 여기에서 매우 쉽습니다 모든것은 굉장해

그래서 지금 질문에 답하고 싶다면 예를 들어, 얼마나 많은 아이폰이 다음 달에 주문해야합니까? 아주 간단한 것들 이제는 일반적인 방법으로 일을하는 것은 모든 데이터를 데이터웨어 하우스에로드하는 것입니다 의 말을하자, 테라 데이터를 사용하면 기본적으로보고를 수행합니다 그래서 여기에 도구가 있습니다

tableau 및 QlikView와 유사합니다 따라서 모든 데이터가 생성되고로드됩니다 창고와 생활은 매우 간단합니다 그러나 이것은 하나의 문제입니다 그래서 진짜 문제 이 전체 설정에서 이것은 2000 년을 말할 때까지 잘 작동했을 것입니다

오늘날, 우리는 지금 2018 년에 있으며 질문은 그렇지 않습니다 우리가있는 데이터의 양이 보고있는 것은 매우 거대합니다 그럼 간단한 예를 들어 봅시다 이제 내가 가면 질문을 바꾸고 얼마나 많은 고객이 iPhone을 구입했는지, 좋아하는지 배달이 싫어 그러나 우리와 이야기하는 대신, 그들은 분노했습니다

지저귀다 이제 우선, 소스와 같은 데이터가 트위터 및 센서, 네트워크 로그 및 클라우드와 같은 기타 출처 그래서 이건 생성되는 데이터는 실제로 매우 크고 귀하의 데이터에 적합하지 않습니다 전통적인 데이터베이스 시스템은 괜찮습니다 그래서 마이클은 여기에 질문을합니다 그는 Big Data에 대해 이야기하고 계십니까? 네, 마이클, 당신은 절대적으로 옳습니다

그래서 이 모든 엄청난 양의 데이터가 서로 다른 출처에서 나옵니다 다른 형식은 귀하의 큰 데이터 일 뿐이며 새로운 것을 필요로합니다 이 큰 데이터를 저장하고 처리합니다 그래서 우리가 데려 오기로 결정했습니다 다른 시스템 및 시스템은 Hadoop이라고합니다

이제 Hadoop을 매우 거대한 데이터웨어 하우스로서의 매우 조잡한 원유 방식 따라서 데이터를 가져올 수 있습니다 어디서나 쉽게 단일 마스터를 호스트 할 수 있으며 이론적으로 수십 개의 수천 개의 노드 또한 두 가지 서비스 저장 및 프로세스를 제공합니다 그래서이 남자, 전통적인 데이터베이스 및 기타 소스에서도 데이터를 가져올 수 있습니다

이제이 녀석, 데이터를 저장하고 데이터를 처리 할 수 ​​있습니다 하둡을 누군가로 생각하십시오 일반적으로 많은 데이터를 저장하고 처리하기 위해웨어 하우스를 보완합니다 이제 최종 처리가 완료된 후에도 데이터를 저장하고 처리 한 후 그 마지막 물건을 창고에 넣을 수 있습니다 분석 도구를 사용하면보고 도구에 직접 연결할 수 있습니다

가능한 사람들도 그래서 당신의 패턴에 따라, 당신은 당신이 정말로 무엇을 선택할 수 있습니다 하고 싶다 이것이 Hadoop의 배경입니다 그래서 모든 데이터를 한 곳에서 처리하고 나면 무엇이든간에 창고에 실을 수 있습니다

또는 직접보고 도구에 연결할 수 있으며 다른 도구가 있습니다 예를 들어, 이것을 오라클에 다시로드하면 추천이됩니다 엔진 이런 식으로 생각하십시오 데이터를 얻은 모든 출처에서 우리는 아이폰을 사는 사람들의 85 %가 스크린 가드와 81 %의 사람들을 샀다고 배웁니다

아이폰을 사면 뒷 표지도 샀다 이제 우리가 이것을 한 번 배우면 하둡, 우리는 이것을 오라클에 다시로드 할 수 있으며 다음 고객이 전자 상거래 사이트에서는 항상 iPhone을 구입 한 사람들에게 스크린 가드와 뒤 표지를 샀다 따라서 Hadoop을 매우 큰 데이터 저장소로 생각하십시오 데이터를 저장하고 데이터를 처리 한 다음 원하는 방식으로 사용할 수 있습니다 여러분, 하둡이 무엇인지에 대해 모든 사람들이 분명히 희망하기를 바랍니다

그럼 나에게 빨리 줄래 내가 앞으로 나아갈 수있는 확인 좋아 램은 그가 분명해서 앤이라는 것을 확인했다 좋아, 모두들 좋아하는 것 같아 그래서 이제 Hadoop의 스토리지 및 프로세싱 부분을 이해하게 될 것입니다

하지만 대신 작은 이름을 쓰면 어떻게 될까? 왜냐하면 우리는 완전히 이해할 것이기 때문입니다 그래서 Kailash의 CEO 인 타마 컨설팅 서비스와 회사의 입지는 150 세 이상입니다 전세계의 국가와 사람들이이 회사를 좋아합니다 어제는 회사의 Facebook 페이지에 10 억 개의 좋아하는 항목이 있으므로 이제 CEO가 거대한 대시 보드 지구 전체를 볼 수 있고 각 국가를 가리킬 수 있습니다

그 나라에서 얼마나 많은 사람들이 좋아하는지 표시합니다 이제이 작업은 프로젝트 관리자 인 Ajay에게 배정 받았고 대시 보드는 4 일 만에 만들었습니다 이제 Ajay가 이것을 위해 Hadoop을 사용한다고 가정 해 봅시다 그의 팀에는 두 명의 멤버가 있습니다 미스터 관리 및 미스터 개발자, 지금 Ajay Admin 씨, Hadoop 클러스터를 설정하고 Mr

개발자는 전체 대시 보드를 개발해야합니다 그럼 무엇을 보자 지금 당장 일어난다 첫 번째 관리자가 들어 오면 5 대의 컴퓨터를 구입하고 하나는 주인이고 4 명은 노예가 될 것이라고 결정한다 그래서 Mr

관리자가 일하기 시작했으며 그는 5 노드 클러스터를 하나 설치했습니다 마스터 및 4- 노드 슬레이브 및 Hadoop은 모두 스토리지 및 처리에 관한 것입니다 곧 주인, 그는 저장 주인이라고 불리는 누군가를 설치하고 주인에 다시, 그는 처리 마스터를 설치합니다 이제 노예에서 그는 스토리지 노예와 처리하는 노예 그래서 그는 모든 노예를 위해 이것을합니다

이제 관리자는 Jeff에게 "Boss 설정이 완료되면 데이터를 수집하고 프로그램을 작성하십시오 "이제 Ajay는 개발자 님, 개발자가 진행하고 데이터를로드하고 코드 그래서 개발자는 페이스 북이 JSON으로 파일 크기는 약 640MB입니다 그래서 그는 스토리지 마스터에게 글을 쓸 때 파일은 실제로 128MB 블록으로 분류됩니다 따라서 640을 128로 나누면 5 개의 블록을 의미하고 각 블록은 복제됩니다

세 번, 그래서 그것을 15 블록 괜찮아요 그래서 Deepak의 질문이 있습니다 그는 "블록이 3 번 복제 된 이유는 무엇입니까?"라고 묻습니다 좋은 질문입니다 그래서 우리는 실제로 Hadoop의 내결함성 개념이 있습니다

지금도 원본 블로그가 손상되면 해당 블록을 두 개 더 복사 할 수 있습니다 데이터를 검색하면 이것이 Hadoop을 매우 신뢰할 수있게합니다 그래서 그것은 당신의 대답입니다 질문 디팍 좋습니다, 그래서 디팍은 좋습니다

이제이 15 블록의 원본 파일은 다른 슬레이브 노드에 분산됩니다 그래서 네 이 블로그 중 첫 번째 슬레이브에 저장되고, 네 번째 슬레이브에 네 개가 저장됩니다 세 번째 노예, 둘째 셋, 셋째 노예 이제 데이터가 준비되었습니다 그것 이미 블록으로 나뉘어져 있지만 스토리지 마스터의 경우에는 메타 데이터 만 갖게됩니다

따라서 메타 데이터는 다음과 같습니다 지금 FacebookJSON은 블록 1,2,3,4 & 5와 블록 1입니다 슬레이브 1,2 & 3에 존재합니다 블록 2는 슬레이브 2에 있습니다

3과 4 등이 메타 데이터에 저장됩니다 그래서 거기 마스터가 저장 전용이기 때문에 스토리지 마스터에 아무런 문제가 없습니다 메타 데이터 및 전체 데이터가 아닙니다 이제 그 기억이 전혀 아니다 발행물

따라서 파일의 크기에 관계없이 이름 노드의 메모리를 사용합니다 메타 데이터에 대해서만 원래 데이터가 실제로 슬레이브에 기록됩니다 지금 여러분에게 간단한 예를 들어 보겠습니다 그래서 우리가 말하자면, 그의 팀에 4 명이있는 프로젝트 매니저 이제는 프로젝트 매니저가 알고 있습니다

사람들이하는 일은 무엇이지만 모든 일은 실제로 노예가합니다 그래서 매니저가 여기 병목 현상이 아니며 그의 매니저도 아닙니다 어떤 데이터가 어디에 저장되어 있는지를 알 수있는 용량 그래서 관리자는 아무 것도하지 않습니다 그는 메타 데이터 만 가지고 있습니다

좋아, 이제 데이터가있는 곳 저장된 개발자는 데이터를 가져 왔으며 그것을 저장 영역에 썼고 모든 데이터가 퍼져 나갔다 그래서 이제 개발자는 앞서 가서 프로그램을 쓴다 국가 별 좋아요 수를 찾으려면 프로그램 이름이 자바 프로그램 이제이 Java 프로그램이 제출되므로 처리 마스터 모든 컴퓨터에이 코드를 복사합니다 이제 마스터는 기본적으로 그렇게 말할 것입니다

네 노예 한 명을 처리하고 두 명을 차단하라 당신에게 국부적 인 슬레이브 2, 블록 3을 로컬로 처리합니다 당신 노예 3 개, 당신은 네 블록과 네 노예 네 블록을 처리합니다

당신에게 국부적 인 프로세스 블록 5 따라서 비즈니스를 로컬로 수행하고 네트워크에 말하면 작업이 완료되어야하며 최종 결과를 얻습니다 출력을보고 도구에 직접 표시하거나로드 할 수 있습니다 창고를 만들고 그것을 수행하고 X를 맨 위에 놓습니다 Hadoop이 실제로 작동하는 방식입니다

얘들 아 그래서 이것은 당신을위한 하둡입니다 이제 신속하게 프로세스 이름 지금까지 Hadoop은 두 가지 서비스 스토리지 및 처리 따라서 스토리지를 제공하는 팀을 HD FS라고하며 팀 이것은 당신이 처리 할 수있게 해주는 것이 마스터이기 때문에 다시 생산합니다

슬레이브가 마스터가되고 HDFS가 이름 노드로 호출되고 슬레이브가 나를 호출됩니다 슬리브를 MapReduce의 데이터 노드라고하며 마스터는 작업이라고합니다 트래커와 슬리브를 tasktracker라고 부르며 저장 용으로 이름이 있습니다 노드 및 마스터 노드로 구성되며 처리시에는 작업 추적기 및 tasktracker 간단한 물건은 인생이 여기에 아주 아주 쉽지 않은가? 이 특별한 셋업은 당신이 쓸 수있는 한 가지 심각한 제한이있었습니다 당신이 그것을 좋아하든 싫어하든 관계없이 MapReduce의 프로그램 당신은 오직 MapReduce 나 다른 프로그램에서 쓸 수있는 프로그램을 작성할 수 있습니다 MapReduce하지만 다른 것을 가질 수는 없으므로 간단한 예를 들어 봅시다

내가 제대로 된 남자 같은 평신도라는 것을 보자 이제 내 남자 중에 문제가있다 아이폰 나쁜 트리 그래서 난 그냥 새로운 나쁜 살 수있는 나무와 내 아이폰에 넣어 그래서 정상적인 사람이 가게에 걸어 구매 분명히 옳지 않은 아이폰에 대한 나쁜 트리는 애플이 말하기 때문이다 당신이 내 휴대폰을 사용하고 싶다면 내 배터리 만 사용해야합니다 그것을 좋아하거나 그것을 좋아하지 않는다면 당신은 나쁜 나무를 살 수 없다

그녀는 Hadoop을 사용하기를 원한다면 전화도 매우 유사합니다 Hadoop은 친구라고 할 것입니다 그것을 사용하되 당신 자신과 MapReduce를 표현해야한다 왜냐하면 그것이 Hadoop one point X라고 불리는 이유지만, 정말로 원했던 것은 더 좋은 무엇인가이었습니다 그래서 우리는 다른 버전의 Hadoop에 스토리지가 있었지만 MapReduce 대신 새로운 구성 요소가있었습니다

충돌은 자원 관리자 및 노드 관리자 이외의 것입니다 지금 원사는 어디서나 할 수있는 자원을 줄 것이라고 말하는 곳에서 MapReduce Blanca는 Hadoop의 한 점 X에서 그렇게 중요하지 않습니다 MapReduce가 Hadoop에서 MapReduce를 가리키는 유일한 방법이었습니다 그것들을 되풀이하여 하둡 하나에 집중하십시오 point x ma는 Hadoop의 유일한 두 점을 줄입니다

X MapReduce는 방법 중 하나입니다 이제이 코스는 모두 약 2 포인트 X이고 우리는 논의하지 않을 것입니다 한 점 X와 내가 한 점 IX를 설명한 이유는 나쁜 건강을 설명하는 좋은 건강을 설명 할 수 있을까요? 내가 XI를 가리켜 야한다고 설명해야한다면 매우 힘들 수 있습니다 당신에게 한 점 X와 거기에 대한 심각한 한계를 보여줍니다 2 점 X를 가져와 두 점 X는 기본적으로 일반적인 자원 관리자입니다

리소스가 필요한 모든 사람들이 와서 리소스를 제공 할 것입니다 당신은 일을 할 수 있습니다 그래서 X를 가리키는 방법이 실제로 작동합니다 그래서 보도록하겠습니다 Hadoop의 프로세싱 파워에서 X를 가리키고 여기에 V를 master 리소스 관리자라고도하는 우리는 잠자기에서 전자를 가지고 있으므로 내 저장 계층 여전히 DITA를 쓰는 것과 거의 같습니다

처리하지만 내가 일하는 마스터에 내 직업을 제출하면 Yancy의 헤이 남자 나는 잘 모른다 MapReduce를 실행하는 방법은 없지만 할 수있는 자프 마스터라고 불리는 사람을 알고 있습니다 MapReduce for me 그래서 저는 리소스 관리자입니다 사람들에게 자원 처리하는 법을 모르지만 다른 사람을 안다 Zap Master라고 불리는 그는 그 일을 할거야

그래서 지금은이 앱 마스터가 이제 잠을 자면 앱 마스터를 초기화 할 것입니다 근본적으로 책임있는 일을하는 과정 그 일을 위해 앱 마스터 야 그래서 얀 마스터가 헤이 앱 마스터를 본다 나는 새로운 것을 가지고있다 당신을 위해 일하는 것은 어때? 잘 Gouri 3 월 2 NC 보스 만약 당신이 나를 위해 일을하고 싶지 Logged 나에게 다음과 같은 것들을 주시길

그러니 슬론에 대한 두 가지 자원을 하나의 자원으로 주 옵소서 슬레이브에서 하나의 리소스로 슬립 3에서 하나의 리소스 슬레이브에 왜 데이터 지역이 중요하기 때문에 연의 마스터는 괜찮습니다 자원과 그 주인은 앞으로 나아갈 수 있고 아이디어를 도처에 발사 할 수 있습니다 여기 연의 마스터는 자원을 제공하는 직업을 수행하지 않습니다 당신을위한 얀이 전체 세부 사항에 관한 한 가지 더 있습니다

한 지점에서 X MapReduce가 X MapReduce를 가리키는 유일한 방법입니다 그렇다면 왜 2 포인트 X를해야할까요? 그 사람들처럼 단순한 삶을 나는 아주 간단한 예를 들어 줄 것입니다 회사는 발 팬더라고 불렀습니다 음식 팬더는 발 배달을하는 회사입니다 피자 헛을 부르면 이제는 소변을 볼 수 있습니다

하지만 발 팬더를 부르면 다른 어떤 포효 소리도들을 수 있습니다 그래서 원사를 발 연못으로 생각하는 걸 어떻게 보는지 나는 발을 들지 않지만 나는 사람들에게 음식 서비스를 제공하여 언제든지 주문할 수 있습니다 그들은이 설명을 통해 하둡의 전체 풍경과 건축 작업 관점이 세션에 참석해 주셔서 감사합니다 얘들 아 다음 수업에서 만나 줘서 고마워 영화 감상은 아래에 의견이 있으면 의견을 나누고 공유 하시겠습니까? 그리고 우리는 가능한 한 빨리 그들에게 반응 할 것입니다 또한 intel bat에 가입하십시오 채널을 통해 최신 기술을 지속적으로 업데이트 할 수 있습니다

다른 관련 동영상과 재생 목록을 통해 자세한 정보를 얻을 수도 있습니다 지속적인 웹 사이트 방문

[레즈비언 웹툰작가 위듀]퀴어토크: 과사 대방출?! 여자 아이는 치마만 입어야 하나요? Queer talk about Gender roles (Eng Sub.)

When I look back on my childhood, I remember those memories What about you, Alex? What was your childhood like? Hi guys, welcome back to my channel

Right next to me, is our guest, Alex Hi everyone Today's subject will be about gender roles We're gonna talk about some issues that people could experience when they are not inside the fence of traditional gender roles The subject that we have may look so serious, but actually It is just about exposing my old pictures And as a bonus, you can also enjoy my best friend, Alex's old pictures as well

When I look back on my childhood memories, I think it was when I was in elementary school I hated pink color and skirts I didn't like Barbie dolls or what so ever that girls usually play with I hated everything what people say "It's for girls" I didn't really feel comfortable with them So I just did whatever I like and wore whatever I wanted Blue clothes, Or military style I used to play with toy guns and knives and made a secret chamber in mountains When I look back on my childhood, I remember those memories

What about you, Alex? What was your childhood like? I was similar with you I- I think such thing as Gender identity changes as time goes by There are a lot of people who experience that So until when I was seven, [What my mom says] My mom told me that I wouldn't go to kindergarten if I don't wear a skirt even in winter times Is that really true? I cannot buy what moms say about their kids But when I got into an elementary school, Girls didn't wear skirts anymore

They would've considered it as narcissism So afterwards, I only wore pants but skirts Now I can see how big the impact is of the social group they're in Cus I have no memory of liking pink color nor skirts But I remember this

My mom told me, Back then when I was young, both of my parents were working They thought it could be dangerous if I look like a little girl Because they couldn't take care of me all the time So they were relieved that I looked like a little boy to other people So they told me later That they were actually glad that I liked boys clothes as a young girl And I thought it was so sad Because this story tells you how tough it is to live as a little girl in this world We talked about the impact of the social groups earlier, and- For example like in school, Children tend to copy what other kids do in their age And they copy their parents' behaviors even earlier than that So I think Things could be totally different depends on the way how the social groups teach about gender roles Even if you're interested in wearing like a boy Maybe the social group you're in wouldn't allow it [Old picture time] Let's see what we have You want to see now? I mentioned several times in my videos before that I used to wear like boys when I was younger But I know It would've been hard for you to imagine what it is like when you just heard about it

Because I wear like so called as "girlish look" now So I've got some evidendces for you this time It's my day to release all of my old pictures {BABABAM} So tell me about this picture How old were you? I think it was when I was in early age of my 20s? So I used to have only short hairs when I was younger And in early of my 20s, I just repeated growing and cutting my hair I picked this picture because I look so cool in it Alex insisted that I have to put this picture in These pictures So right after I cut my hair back then, I took some selfies and I was looking at my old pictures in my phone and I found this picture of me with long beautiful hair So I found it funny that I look like different two people So I uploaded them together on facebook And then, one of my friends asked me that- If this is a new lover of me Which one? I don't know about that but anyway she asked me about that Don't they look so different? This picture is from middle of my 20's I was so into styling my hair with pomade

I used to practice how to do that On that day, I was on my way to an awards ceremony for winning the first prize of Drawing cartoons You look really good in that style So this is also a picture of you with the same style? (Working on English subtitles Will be done by 23rd)

Hadoop Tutorial For Beginners | Apache Hadoop Tutorial | Hadoop Introduction | Intellipaat

따라서 Hadoop은 프레임 워크입니다 우리는이 모듈에서 Hadoop과 Hadoop의 다른 구성 요소를 이해할 것입니다

그런 다음 HDFS라고하는 첫 번째 중요한 구성 요소로 이동합니다 또는 Hadoop 분산 파일 시스템 따라서 Hadoop은 다음을 구성하는 프레임 워크입니다 여러 도구와 객체가 합쳐져서 Hadoop이됩니다 생태계

이제 이들은 Hadoop의 중요한 구성 요소 중 일부입니다 나는 이것이 모든 구성 요소라는 말은 아닙니다 따라서 전체 프레임 워크로 구성된 Hadoop의 다양한 구성 요소가 있습니다 그 중에서 중요한 핵심 구성 요소가 있습니다 그들 없이는 우리가 실행할 수없는 구성 요소없이 Hadoop 시스템

핵심 구성 요소에 대해 말하면 기본적으로 HDFS입니다 Map Reduce 및 Yarn 이를 통해 시스템에 데이터를 저장하고 처리 할 수 ​​있습니다 Hadoop은 기본적으로 클러스터입니다 우리는 현실 세계에서 클러스터를 정의 할 것입니다

여기서 우리는 여러 노드에 데이터를 저장할 것입니다 그래서 클러스터는 단지 하나의 그룹에 지나지 않습니다 의 기계 단일 노드 클러스터는 아니지만 함께 작동하는 시스템 그룹입니다 거대한 저장이 불가능하기 때문에 데이터를 저장하고 처리 할 수 ​​있습니다

단일 노드의 데이터 양 그래서 대체 무엇입니까 가장 좋은 대안은 데이터를 여러 노드로 나누어서 데이터를 HDFS에 저장하는 방법을 확인하십시오 저장 레이아웃으로 스토리지 레이아웃에 데이터를 저장하는 방법

그래서 그 목적을 위해 HDFS를 사용합니다 주로 HDFS가 그 이유입니다 데이터를 저장하고 모두 HDFS에 데이터를 저장합니다 플랫 파일 시스템으로 사용하기 때문에 파일 시스템과 유사합니다 linux 파일 시스템으로 특정 폴더를 계층 구조 형식으로 정의하고 해당 폴더 안에 파일을 저장하십시오

오늘 우리는 HDFS에 대해 배우게 될 것입니다 HDFS에서 데이터를 읽고 쓰는 방법 어떤 금액을 저장할 수 있도록 HDFS에 데이터를 저장하는 방법 우리의 Hadoop 클러스터에있는 데이터의 HDFS 위에, 우리는 원사라는 메커니즘을 가지고 있습니다 원사는 기본적으로이 도표에 표시되지 않습니다 그래서 HDFS, 이것은 기본적으로 2

X 용 apache hadoop 생태계가 말할 수있는 것입니다 이전 다이어그램은 이전 버전의 Hadoop과 더 관련이 있습니다 그래서 현재, 우리는 HDFS를 저장 계층으로보고 있습니다 아래쪽 레이어는 HDFS입니다 데이터

그런 다음 Yarn이라는 또 다른 프레임 워크가 있습니다 자, 원 사는 프레임 워크입니다 사용할 수있는 데이터에 대한 데이터를 처리 할 수 ​​있습니다 HDFS의 여러 노드에있는 다른 노드 그래서 말뚝으로, 나는 하나의 단일 서버에 전체 더미

제가 말씀 드렸다시피, HDFS는 기계 나는 하나의 노드에 전체 데이터 나 파일을 보관하지 않고 배포 할 것입니다 여러 노드에서 내 데이터 예를 들어, 1000 개의 프로필 레코드가있는 경우, 그 4 서버에 1000 기록 어떤면에서는 250 개의 레코드를 넣을 수 있습니다

각각은 각 데이터 노드 또는 각 데이터 서버에 있습니다 그래서 나는 내 데이터와 그 이유를 배포 할 것이다 나는 각 데이터 블록에서 프로세스를 실행할 수 있기 때문에 데이터를 배포하고 있는데, 이 데이터의이 조각의 각 블록에 병렬로 간단한 질문을하면, 원한다면 프로세스 (1000)는 순차적으로 그리고 모든 4 블록의 모든 4 블록 레코드는 평행으로 각각 250 개씩 있습니다 어떤 데이터를 할 수 있습니까? 프로세스가 훨씬 빨라 집니까? 4 개의 블록 데이터 또는 1000 개의 단일 블록 데이터를 기록합니다 이 네 개의 데이터 블록은 우리는 각 블록을 병렬로 처리 할 수 ​​있습니다

따라서 전체 데이터를 4 개의 블록으로 나누고 나는이 네 가지 블록에서 같은 과정을 진행하고있다 간단한 비유는 내가 너에게 100 임무를 부여한다면 사람은 일을 끝내기 위해 거의 백일이 걸릴 것입니다 하지만 그 일을 10 명의 사람들로 나눌 수 있다면, 나는 대략적으로 일을 끝낼 수 있습니다 10 일에서 12 일 동일한 논리가 여기에 적용됩니다

우리는 처리 시간을 훨씬 빠르게 달성하기 위해 데이터를 나누어서 내 데이터를 처리하는 데 걸리는 시간 그래서 우리는 Hadoop에서 어떤 양의 데이터라도 저장할 수 있다고 말합니다 데이터를 처리하는 데 걸리는 시간을 줄일 수 있습니다 모든 데이터를 여러 블록으로 병렬 처리 할 수있는 방법 그래서 계획 메커니즘 및 처리 메커니즘은 원사에서 처리합니다 털실은 분산이다 프로세싱 프레임 워크의 방식 map과 같은 다른 도구에서 작성하는 쿼리가 무엇이든간에, 돼지, 그 모든 메커니즘은 데이터를 처리하기 위해 원사의 도움을 필요로합니다

원사는 우리의 데이터를 처리하고 일을 마무리하는 촉진자입니다 이제 여러 도구에서 작성해야하는 쿼리 그래서 map reduce에 코드를 작성할 수 있습니다 코어 자바에서 또는 하이브를 쿼리 도구로 사용할 수 있습니다 돼지를 스크립팅 언어로 사용할 수 있습니다

우리는 쓸 수있다 스파크, 떼기와 같은 여러 가지 다른 형식의 코드 그들의 hadoop 스크립트에서 사용할 수있는 다양한 도구입니다 우리는 하나의 언어로만 코드를 작성할 수있는 그러한 단일 메커니즘에 제한되지 않습니다 사라는 우리가 자바였던 한 언어에만 의존했던 시대입니다 이제 Hadoop에서 사용할 수있는 도구와 옵션이 너무 많습니다

우리가 익숙한 언어 예를 들어 파이썬으로 코드를 작성하고자한다면 파이썬으로 코드를 작성할 수도 있습니다 자바, Python 모든 언어를 코딩 언어로 지정하고 모든 코딩 언어는 Hadoop에 쉽게 적용 할 수 있습니다 코드를 작성하고 코드와 나머지 코드를 실행하기 만하면됩니다 Hadoop 프레임 워크 자체가 관리합니다

그것은 정상적으로 하이브, SQL로 코드를 작성할 수 있습니다 따라서 데이터는 플랫 파일 시스템에 저장됩니다 그러나 구조화 된 방식으로 쿼리를 작성할 수 있습니다 그래서 하이브를 사용하여 쿼리를 작성할 수있었습니다 구조화 된 방식으로 구조화되지 않은 데이터에 적용됩니다

또한 우리는 당신의 SQL 쿼리를 깨뜨릴 수있는 매우 중요한 도구 인 Pig를 가지고 있습니다 매우 작은 단계로 SQL 쿼리의 개별 단계 매우 정상적인 데이터 흐름 형식으로 데이터를 처리하는 방법을 이해할 수 있습니다 그래서 돼지, 하이브는 우리가 데이터를 쉽게 처리 할 수있는 곳에서 배워야 할 중요한 도구입니다 또한 로컬 시스템과 HDFS에서도 작동합니다 큰 일을하고 더 많은 일을하십시오

또한 로컬 파일 시스템에 입찰 할 수 있으므로 논리를 테스트 할 수 있습니다 작은 데이터 세트 중 일부는 사용자가 가기 전에 나타납니다 노력은 무엇입니까 데이터는 오픈 소스와 함께 모여 있습니다 내가 그렇게하지 않으면 그들은 거기에서 무엇을하고 있는지

그것으로 구멍을 파는 것은 기존의 소금입니다 그러고 나서 자신의 패키지를 얻습니다 그렇다면 관련 장소에서 통합 솔루션으로 루프를 찾을 수있는 패키지가 될 수 있습니다 다른 하나와 나는 당신과 같은 모든 회사를 사용하기 위해 돌아왔다

많이 IBM은 다른 회사입니다 그는 자신의 제품과 통합되어 공장으로 만들었습니다 공을 했어 나를 멈춰 줘

나는 당신이 모든 시스템을 통합하고 그들이 통신하고있는 곳에서 페이팔을 만들었습니까? 서로에게 그래서 나는 또한 마이클 회사들이 자사 제품을 통합하기 위해 사용 해왔다 완전한 패키지로 끝낸다 그들이 노조에 주어 졌던 것뿐만 아니라 접혀진 패키지로 작업했을뿐만 아니라 수면에 그리고 나서 우리는 우리가 사는 다른 음식을 걷고 있습니다

내 큰 입은 기계 학습 응용 프로그램입니다 다른 인공 지능 브랜드를 얻을 수있는 시스템 나는 사람들을 내 농산물에 사로 잡았습니다 우리는 그것을 바꿀 수 있습니다 우리는 그것을 빨리 할 수 ​​있습니다 또는 기계 학습 응용 프로그램에있는 양을 피드백 할 수 있습니다

그래서 우리는 몇 가지 예측 분석을 사용할 수 있고 다른 클러스터링을 할 수 있습니다 기술은 우리와 다르게 할 수 있지만 입으로는 삶으로 움직일 수 있습니다 그게 정치적으로 큰 일이라 할지라도 그들이 할 수있는 일이기 때문에 그 일을해야합니다 우리는 너무 많이 읽을 수 있습니다 또한 감사 서비스를 사용할 수 있으며 일부는 그렇게 할 수 있습니다

자동 기능은 일반적으로 데이터 집합에 기본은 그 간단한 데이터베이스 중 하나입니다 또는 하단 섹션에서 우리는 N 평등 테이블로 그것에 대해 이야기 할 것입니다 테이블은 아무것도 아니지만 우리가 하나의 테이블에 모든 데이터를 유지하는 우화를 보여줍니다 당신이 처리 할 수있게하고 니콜 유물을 평상시보다 훨씬 빨리 알아 데이터베이스 시스템 데이터베이스 및 마찬가지로 다른 적은 테이블이 웹 애플리케이션에서 널리 사용되고있다 읽어

우리는 비 국방 주식을 많이 필요로합니다 예를 들어, Amazon 또는 다른 응용 프로그램에 들어간 사례를 예로들 수 있습니다 고객의 바이오스를 다시 한번 정보를 찾는 사람들을 만날 수 있습니다 애플리케이션에서 정보를 매우 빨리 얻어야하므로 사용할 수 있습니다 이러한 데이터베이스를 저장하고 우리는 매우 빨리 그 정보를 추출 할 수 있습니다 정상적인 데이터베이스

그것의 기반 외에도 우리는 한 쌍의 데이터 풀을 가지고 있습니다 이것은 증명 되었기 때문에 다른 데이터베이스의 모든 물건 데이터를 내 사무실로 가져올 수 있습니다 예를 들어 내가 좋은 품질의 데이터베이스에서 무엇을 가져올 지 알고 싶다면 다른 메커니즘을 주문할 수 있습니까? 나는 그것을 줄 수있는 사람들이 쉽게 데이터를 수정할 수 있습니다 그리고 다른 데이터베이스에 들어가기 만하면 그 날을 가져올 수 있습니다 생각 해봐

이 비디오를 얻으십시오 영화는 디아블로 시스템의 대상에 관한 좋은 책이며 하나의 스트리밍 날짜입니다 우리는 그 데이터를 매우 쉽게 수정할 수 있습니다 어쩌구 저쩌구 그 다음 우리는 그것을 처리 할 수 ​​있습니다 그래서 한 가지는 분명합니다

내가 열 필요가 있거나 그 모든 데이터를 고칠 필요가있을 때마다 나는 그것을한다 데이터를 처리 할 수 ​​없기 때문에 데이터를 처리하는 날짜와 우리가 사용하기에 앞서 모든 노드를 끄는 것이 허용되는 재미있는 사육사입니다 내 환경 그래서 모든 노드 사람들이 시스템을 원활하게 잠그기 위해 데이터를 수집하는 방법

그러나 그것은 가난한 봉사를 위해 싸운 사람들이 논쟁 중입니다 나는 중산층이다 우린 좋은 친구 야 그래서 모든 추론과 관리는 누군가에 의해 이루어집니다 나는 당신이 관리 할 수있는 것을 인정했다

세상에 더 많이 추가 할 수 있습니다 시스템의 노드 아래에있을 수 있습니다 그리고 당신은 할 수있는 일에 대해 약간의 변화를 줄 수있는 한 가지 모습이 있습니다 신체 아주 쉽게

그래서 이것은 큰 루프 시스템이고 우리 파티는 기본적으로 제품입니다 그 회사에 모회사인데 내가 다른 사무실과 모든 오픈 소스지만 나는이 모든 회사를하지 않습니다 자살 폭탄 테러로이 모든 오픈 소스 제품들이 하나의 패키지를 작성한 다음 제공하십시오 그래서이 두 가지 패키지 모두에 직접 또는 두 가지 방법으로 설치하는 두 가지 방법이 있습니다 하느님 감사합니다 전화 배급 회사는 다시 적재까지 적극적으로 사용할 수 있습니다 시스템 밖으로 또는 밖으로 그리고 우리는 우리가 할 수 있도록 길고 피 묻은 차이가있을 것입니다 적자와 왜 시간을 마주 치기 위해 IP 비즈니스에 참여하십시오

그래서 뭐야 그래서 내가 할 수있는 것은 모든 것을 가져올 수 있습니다 나는 직접적으로 수비를 했는가 아니면 내 지퍼를 돌릴 수 있었는가? 그래서 그것은 무엇입니까 가져 오기 내보내기는 데이터베이스에만 사용되며 다른 용도로는 사용되지 않습니다 윤활유를 사용하지 않고 모델을 선택하려면 하나만 있습니다

당신이 고칠 생각을 길들인 사람은 먹을 수있는 음식을 사 먹는다 귀하의 시스템은 모두 청취자 데이터베이스 관리 시스템에 속하지만 기록됩니다 귀하의 데이터베이스에서 그들은 서로 큰 비즈니스 플랫폼 플랫폼 나는 적어도 데이터베이스 관리 시스템이 없다는 생각이 들지 않으면 다윈 언어를 볼 수있다 또는 어쩌면 다른 언어로 죽을 수도 있습니다 주요 우선 순위

안경을 읽을 수 있고 직장에 갈 수 있습니다 그런 다음 가져올 수 있습니다 너는 그들에게 간다 내 말은 네가 그걸 네게 줄 수 있다는 뜻이야 당신이 일할 수있는 사람들에 의한 창

그래서 당신은 당신이 주문했을 때 파이썬을 사용할 수있는 방법으로 하나님 께 확장 할 필요가 있습니다 다른 기술 우리는 Ondo에 살기 때문에이 시간 내에이 시간 내에 수정할 수 있습니다 그 모든 데이터가 그것을합니다 스포크를 사용하여 이것을 얻으십시오

음,하지만 그건 데이터에 나쁜 영향을 미칠 것입니다 여러분이 IBM과 플랫폼으로 협력하고 있고 가장 좋은 친구를 원한다면 이걸 얻으면 우린 특종을 사용하여 Blue가 9 월에 영향을 미칠 수 있습니다 스트리밍 데이터를 참조하십시오 그래서 당신은 아무것도 느끼지 않지만 당신은 많은 것을 의미하지 않습니다 그래서 그들은 좋은 데이터가 아니지만

점에 사람을 연결하면 아무런 멈추지 않고 눈을 먹일 수 있습니다 그래서 그들이 원하는 음식이 아닌 것처럼 느끼는 것에 먹이를 줄 누군가는 아닙니다 가져 오기 위해 다른 데이터를 선택할 것입니다 그래서 나는 무엇을 했는가 그러나 나는 그렇다고 생각하는 사람을 선택하지 않았고 그것을 얻었습니다

어떤 기계도 그 과정을 자동화하는 것은 유용하지 않습니다 기계 학습은 별도의 메커니즘이므로 독자가 읽을 수있는 기술 방식입니다 새로운 모델을 좋아하고 만든 데이터로부터 데이터를 이해할 수 있습니다 이것들은 당신이 파는 모든 모델이 아닙니다 특정 두뇌 전부 당신은 떨어져 뛰어 오르지 않을 무언가를 알아낼 수있다 새로운 것의 모형 데이터

예를 들어 내가 최고 상을 찾고자한다면이 데이터 시장에 이미있다 데이터 그 기계 돈을 사용하는 것입니다 20 30 개의 데이터를 정리하면 해당 추세를 쉽게 예측할 수 있습니다 그들이 무엇을 또는 ​​다운로드가 안정 될지를 알아 내고 있는지 하지만 그것은 학습이 너무 많아서 우리가 예전의 데이터를 이해하는 데 도움이되지 않습니다

데이터 따라서 우리는 두 시스템에 데이터를 더 많이 공급할 것입니다 우리는 그 가능성을 이해하고, 너무 많은 돈이 갈 것이라는 것을 정말로 나쁘게 느끼고 있습니다 그들 따라서 두 번째 메커니즘을 사용하여 모든 다른 끝을 찾을 수 있습니다

우리는 그걸 예측할 수 있습니다 이 모든 것들은 모두 꺼져 있지만, 느끼는 모든 과정을 자동화 할 수 있습니다 더하기 같은 우리 모두 했어 네가 그의 변호에 대해 죄책감을 느낀다면 나는 니콜라스에게 기뻐 언제 데이트 할 필요가 있는지 알기 위해 이것을 얻을 수있었습니다

그런 다음 해당 데이터 곰팡이에 개를 실행하여 데이터 내에서 다른 곳으로 작업을 업로드해야합니다 골프 기술 및 골프 그리고 나서 사진은 골프를 치기는하지만 두 가지 방법이 있습니다 수동으로 또는 모든 시스템에서 모든 골프를 워크 플로의 단일 파일로 메커니즘을 사용하면 내 아기에게 모든 프로그램을 주문하기 쉽습니다 첫 번째 두 번째와 세 번째가 완료되면 다른 하나가 순서대로 아마도 당신은

그러나 그것은 당신이 알고있는 하나씩 골프 코스를 운영 할 수있게 해주는 것입니다 당신은 그것을 할 Leslie는 또한 어떻게 그녀가 그렇게했는지 확신 할 수 있도록 자신의 직업을 수행합니다 아무에게도 한 발을 내주기가 어렵습니다 종종 나는 갭 분석이 가능해질 것이라고 생각합니다

너도 알다시피, 이것이 큰일이다 나는이 모든 것을 다 통과했습니다 그래서 나는 다시 매우 긍정적으로 변했습니다 자동화 할 수 있다고 생각할 때 사용할 수있는 모든 도구가 있습니다 당신은 그것과 별개로 분석을 할 수 있습니다

Spock과 공과 같은 다른 많은 그룹이 있습니다 Spock 로컬 박스와이 상자와 같은 다른 도구에 시간을 할애해야합니다 당신은 메모리 프로세싱에서 어떤 것을 할 수 있습니다 우리 아빠는 Spock과 Moffat을 Spock과 비교하려고했는데 내 부스보다 훨씬 빠릅니다 왜냐하면 그것이 기억에 남을 것이기 때문입니다

그러나 Bob과 Spock을 잡는다면, 더 많은 메모리가 필요하거나 더욱 더 그래서 우리가 누군가를 목표로 삼을 수 있다면 Spock에서 뛰고 싶을 것입니다 나중에 어느 날 그것을 전달하고 싶습니다 나는 가제트와 메모리 또는 유령 기계를 방해하는 메커니즘을 남기지 않을 것입니다 너는 그 자리에 앉는다

그러나 바그다드에 우리가 기획하고지도 작성하거나 할 수있는 것을 얻을 수있는 것만 큼 크지는 않습니다 우리는 그 벌금을 줄 였지만 두 번째 지연의 한 부분을 인쇄했습니다 우리가 한 수학에서 2 분만에 100 분이면, 나는 그것을 할 수 있습니다 2 분 또는 3 분 후에 꺼집니다 그래서 종이에서 제 생산물을 시작하는 강렬한 양입니다

내 생산물이므로 사용할 수있는 많은 도구가 있습니다 Amazon Web Services 아무에게도 선이있을 것입니다 우리가 계산할 수있는 모든 것은 아마존에서 관리합니다 누군가는 당신이 관리 할 수 ​​있고 지배 할 수있는 도구입니다

그래서 넌 할 수있어 그리고 저는 그 시스템의 일부분이었습니다 관리자와 제목은 어떻게 운영됩니까? 그들은 원한다 당신이 할 수있는 한 가지는 당신이 시스템을 찾을 수 있도록해야합니다

당신은 누군가의 누군가를 그렇게 할 수 있습니다 그것은 그것이 보였던 것처럼 주문받습니다 이상 주의적 불평등이란 얼마나 오래 서로 알고 지내는 데 소비했는지에 관한 것이 었습니다 다른 좋은 몸 내가 돈이나 돈을 버릴 사람이 아닐지라도 내파 된 몸에 당신의 주요된다

나는이 비디오를 통해 당신이 즐겁게 배웠을 것이라고 확신합니다 동영상을 좋아하시겠습니까?이 동영상에 대한 의문 사항이 있으면 의견을 남기십시오 우리는 코멘트 섹션에 그리고 우리의 채널을 구독하는 것을 잊지 말고 더 많은 유익한 비디오를 보게하십시오 우리의 재생 목록에있는 다른 관련 동영상

자세한 내용은 당사 웹 사이트를 방문하십시오 이제는 인텔에 대해 계속 배우십시오

(영상툰) 영국 정복기 #1 입도 #영종도 #영종국제도시 #영종도 웹툰 만화

Kakamaka TV 영국 정복기 by Wolbut 영국 정복기 #1 입도

뭐? 영종도? 응~ 사람들도 착하고, 공기도 착하고 무엇보다도 저렴한 비용으로 삐까뻔쩍한 집에서 살 수가 있더라고 비행기 소리 시끄러워서 어쩌려고? (쪼옥-) 몇 번이나 놀러가 봤었는데, 너무 조용하던 걸 거기도 아파트가 있었어? 풉! 여기 오려면 배 타고 다녀야겠네

배도 있고, 차도 있고, 기차도 있고, 비행기도 있어요 맘에 드는 걸로 아무 거나 골라서 타고 오면 돼요 학교는 있고? 할머니, 약 드실 시간이에요

살벌아~ 우리 내일 이사 가 너의 노후도 거기서 보내게 될 거야 개 밥그릇 잘 챙겨 괴담(?)을 뒤로하고 드디어

입도합니다!! 어때? 추워 일몰이넹

영종 국제도시 정복기 시작합니다~♥ 영종도 관련 소재 제보: wolbut@navercom by 월붓(Wolbut) '까까마까TV' 작품을 다른 곳에서 발견할 시 tvkakamaka@gmailcom 으로 신고하여 주세요

[ASMR] '치즈인더트랩' 치즈케이크 (자막有)

안녕하세요! '치즈인더트랩' 치즈케이크 레시피입니다 😀 먼저 로터스 쿠키를 잘게 부숴서 가루로 만들어주세요 그 다음 녹인 버터를 넣고 잘 섞어주세요

준비한 틀 바닥에 깔고 꾹꾹 눌러주면 베이스 완성 🙂 찬물에 판젤라틴을 넣고 10분 정도 불려주세요 크림치즈가 마요네즈처럼 될 때까지 잘 풀어주세요 연유를 넣고 잘 섞어주세요 그릭요거트를 넣고 잘 섞어주세요 생크림이 떨어뜨렸을 때 약간 자국이 남을 정도로 휘핑해주세요

설탕을 넣고 부드럽게 뿔이 설 때까지 휘핑해주세요 (팔이 조금 아파요) 불려놓은 젤라틴은 물기를 꼭 짠뒤 레몬즙과 함께 전자렌지에 20초 정도 돌려주세요 완전히 녹은 젤라틴을 치즈필링에 넣고 빠르게 섞어주세요 휘핑한 생크림을 두번에 나눠서 넣고 거품이 죽지 않게 조심조심 섞어주세요 준비해둔 틀에 필링을 붓고 윗면을 예쁘게 정리해주세요

이대로 냉장보관! 그 다음은 설이가 유정선배에게 받은 사자인형을 만들건데요! 이 빵 다들 아시죠? 치즈맛 빵을 가루로 만들어주세요 크림치즈나 프로스팅을 넣고 찰흙처럼 될 때까지 뭉쳐주세요 완성된 케익팝 반죽을 조물조물해서 대략적인 사자모양으로 만들어주세요 머리랑 몸통을 만들고 꼬리는 젤리빈을 꽂아주세요 만든 케익팝은 냉동실에서 차갑게 식혀주세요

녹인 화이트초콜릿에 다크/밀크초콜릿을 조금 넣고 사자 털색(?)을 만들어주쎄요! 굳힌 케익팝을 초콜릿에 퐁당 넣고 잘 코팅해주세요 케익팝이 차가워서 초콜릿이 엄청 빨리 굳어요! 손이 빨라야합니다 슈슈슉 코팅된 초콜릿이 굳으면 귀요미 사자 얼굴을 그려주세요 수전증 있는 분들 화이팅 (저 포함) 쨘 이제 숫사자의 자존심! 갈기를 만들 차례입니다! 원래 갈색 솜사탕을 이용하고 싶었지만 그런 건 찾을 수가 없네요 흑흑 아무튼 초코버터크림을 잘 문대고 포크로 슥슥 긁어서 털을 표현해주세요 ㄱ귀여웡 굳혀둔 케이크를 틀에서 꺼내서 사기를 쳐보겠습니다 신중하게 장비를 손질하구요 (뜨거운 물에 넣었다 뺐어요) 케이크에 구멍을 뽕뽕 뚫어주세요! 이 케이크는 이제 치즈 덩어리가 되는 겁니다

후후 (생각보다 잘 안 뚫려서 당황) 쑤욱 (시원) (환 공포증?) 치즈 완성! 이제 치즈덩어리에 옷을 입혀줄게요

화이트초콜릿에 따뜻하게 데운 크림을 부어주고 몇 분 동안 기다려주세요 노오란 식용색소를 넣고 쉐낏쉐낏 섞어주세요 (바나나우유 생성중) (계란노른자가 되었다!) 노란 가나슈 완성입니다 😀 이제 대망의 마지막 단계! 케이크 표면이 전부 커버되도록 가나슈를 부어주세요 왠지 모를 희열 사자인형을 짠 하고 올려주면 완성! 첫 영상이라 부족한게 많네요ㅠㅠ 그래도 재미있게 보셨다면 좋아요 & 구독 해주쎄요♡

(ENG)여신강림, 외모지상주의 웹툰 주인공 [고등학생 간지대회] EP.5-1

(고등 학교 스타일 아이콘 Goganzi) (박태일의 눈물) (박태일은 평가 도중 갑자기 울다) 나를 위해

(무슨 일이 일어 났을 까?) (계속 지켜봐주십시오) (지난주) 나는 세 번째 선교 사업의 결과를 발표 할 것입니다 오 나림, 심수현 팀 이 임무에서

당신은 제거되었습니다 이창빈, 주승현 팀 불행히도, 당신은 제거되었습니다 당신의 노력에 감사드립니다 (김희철) 그들은 원하는 모든 것을 보여줄 수 없었다 그리고 불행히도 제거되었습니다

그 중 네 명 중, 심사 위원 (한 사람에 대한 마지막 기회)는 한 사람에게 와일드 카드 기회 다음 임무에 참여하십시오 (스타일 마스터 평가 중) 1, 3 중 솔직히 생각합니다 (Han Heayoun) 우리는 이것을 구해야 만합니다 그는 뭔가 독특한 것을 가지고있다 그 중 하나를 구할 수 없습니까? (와일드 카드 참가자)이 카드를 사용해야합니까? (와일드 카드는 누구입니까?) (4 Goganzis에 대한 최종 기회) (Moon Gabi) 미래 잠재력, 또는 얼마나 더 우리는이 사람을보고 싶다

우리는 가장 호기심 많은 사람을 선택했습니다 한 명만 남고 다음 임무에 참여할 수있는 기회가 주어집니다 그 참가자는 (후보자 이창빈 후보) 이게 뭐야? (첫 번째 임무 중 사진으로 판단) 이것은 잡지 보급과 비슷합니다 (Han Heayoun) 창빈의 모습은 정말 현대적이었습니다 (두 번째 후보, 심수현) 그가 네온을 전반적으로 사용하지 않았다는 사실 (첫번째 선교 도중 독특한 스타일을 가졌음) 나는 그것을 정말로 좋아했다 그가 네온을 전반적으로 사용하지 않았다는 사실

(Hiptro styling team mission) 바지를 실제로 사용 했습니까? 예, 재봉틀을 사용합니다 (중고 재봉틀 / 위대한 기술) 재봉틀을 사용할 수 있습니까? (제 3 후보, 오 나림) 그녀는 일을 섞었다 나는 그것이 더 좋아 보인다라고 생각한다 (그녀의 똑똑한 유틸리티 모습을 위해 칭찬 받았다) 나는 그것을 매우 높게 평가한다 어머

매우 귀여운 (Han Heayoun) 그들은 멋지고 예쁘다 Na-Rim은 정말 재능이있는 것 같습니다 (제 4 후보, 주승현) 이거 정말 좋다 (지속적인 개선을 보였습니다

) 그가 정말로 공부 한 것처럼 느껴집니다 (승현이 형을 잃었습니다) 승현현이 바뀌 었습니다 (Han Heayoun) 저는 당신의 대담한 선택을 매우 높게 평가했습니다 축하해

(특별히 선택된 와일드 카드) (와일드 카드 수상자는 ) 그것은 심수현입니다 (심수현, 와일드 카드 승) 심수현

심수현입니다 다음 임무에 참여할 수있는 기회를 얻습니다 (한혜영) 수현은 일종의 그는 우리에게 이러한 부분적인 세부 사항을 계속해서 전합니다 그가 바지를 어떻게 바꿨는지 봐 – 네가 옳아 (Moon Gabi) 사진에서 우리에게 보여준 것이 너무 좋았습니다 (박태일) 스현은 정말 재능이있다

(수 빈) 나는 그것이 수현이 될 것이라고 예측했다 (유비) 나는 현현이 선택 될 것이라고 생각했다 (Jun-wu) 그는 디자인에 뛰어나고 예리한 옷감을 가지고 있습니다 나는 그가 또 다른 기회를 얻는 것이 맞다고 생각한다 그의 재능은 무한하다고 말할 수 있습니다

(Hwi-sun) 나는 그들이 분명히 다른 기회를 줄 것이라고 생각한다 (수현은 그의 잠재력으로 칭찬 받았다) (오 나림, 이창빈, 주승현 제외) (다른 세 Goganzis 제거됩니다) (네 – 림) 네가 평가 한 사실 나에게 그렇게 좋은 기회 였어

정말 고맙습니다 이것은 의미있는 경험이었습니다 고맙습니다 (Chang-bin) 정말 의미 있고 멋진 시간이었습니다 나는 더 많은 노력을 기울일 필요가 있다는 것을 깨닫는다

좋은 시간 이었어 (승현) 나는 이길 수없고 내가 제거되었지만, 나는 귀중한 경험을 한 것처럼 느낀다 나는 그것에 관해서 후회를하지 않는다 나는 승효가 멀리까지 행복해한다 (박태일) 내가 승효에게 준 평가 추위로 보였을 수도 있습니다

그래서 나는 더 객관적이되고 싶었다 또한 (박태일이 지켜보고있는 눈물을 흘리다) (첫 번째 선교 평가 도중) 나는 예상하지 못했지만 내 사진이다

(승현) 나는 혼자만해도 충분하다고 생각한다 그럼이 사진을 보면 우리에게 아무런 의미가 없습니다 (박태일) 너는 너의 자신의 세계에 너무 푹 빠져있다 우리는 당신과 관련이 없습니다 지금도 우리는 관련이 없습니다

(박태일은 승현을 비판했다) (승효와 훨씬 더 연결되어있다) 정말 부끄러운 일입니다 (박태일) 그러나 나는 후회없이 너를 없앨 수있는 것처럼 느낀다 나는이 대회를 통해 승현 뭔가를 깨달았을 것입니다 당신이 그걸 받아들이고 당신의 재능을 계속 개발하기를 바랍니다 (김희철)이 세 명의 참가자 지금 스튜디오를 떠날 수 있습니다

당신의 노력에 감사드립니다 축하해 (경쟁에서 점점 더 성숙 해짐) (그들의 마지막 작별 인사) 나를 위해 잘해라 (마지막으로 수현을 치고 눈물을 흘리기 시작한다) 짧은 시간에 너무 많은 사람들과 너무 가까워졌습니다 그래서 내가 정말 그리워 할 것 같은 기분입니다

(Na-Rim) 모두 열심히 일하기를 바랍니다 그래서 그들에게는 후회가 없다 (승현) 이기지 못한다고해도, 여기서 당신의 시간이 의미있는 바램이되기를 바랍니다 괜찮아 안녕

(그들 중 3 명은 작별 인사를하고 스튜디오를 나온다) (그들의 내일을위한 뿌리) (Goganzi 침대) 20 너무 늦었 어 최고의 옷차림 만이 살아남습니다 Goganzi, 고교 스타일의 아이콘 콘테스트! 승자가 급여에서 100K를 얻었고 Mercedes Benz가 가족을 얻는 곳 당신은 또한 자신의 패션 브랜드를 시작할 수있는 기회를 얻습니다 좋아, 모두들

(7 Goganzis가 남아 있습니다) 오직 7 명이 남아 있습니다 이 네 번째 선교 사업 후에는 세 명이 사라질 것입니다 이 임무를 당신이 가진 모든 것을 제공해주십시오 (캐릭터 스타일링) 이번에는 웹툰 캐릭터로 변환해야합니다 (Goganzi 네 번째 임무, 웹툰 캐릭터 스타일링) (OMG) 무엇

(Su-bin) 나는 정말로 말을 잃어 버렸다 마지막 웹툰을 읽은 지 4 년이 지났습니다 (교진) 나는 웹툰을 전혀 읽지 않는다

캐릭터가 무엇을 입을 지 모르겠다 또는 그들이 어떻게 생겼는지 (유비) 몇 가지 웹툰이 있습니다 그 패션 항목에 중점을 둡니다 그래서 그것들이 떠 올랐습니다 이 임무 예산은 일인당 800 달러입니다

1 인당 $ 800 와우 (눈 떨림) 돈을 가져 가지 말고, 전화기를 끄고 마을을 떠나십시오 우리가 널 찾을거야 (김희철) 총 2 가지 임무가 있습니다

웹툰 캐릭터로 차려 입는 완벽한 커버 미션이 있습니다 두 번째 단계는 캐릭터의 새로운 스타일을 만들고 당신은 쇄신 임무에서 모든 스타일링을해야합니다 이것은 재미 있어야합니다 (수현) 완벽한 표지가 어렵다고 생각합니다 (Lee-mong) 당신은 그 캐릭터를 재창조해야합니다

(Jun-wu) 정확히 복제 할 수없는 부분이 있습니다 (김희철) 우리는 어떤 웹툰 캐릭터를 가질 지 모릅니다 7 개의 문자가 있으므로 각각 하나의 문자입니다 두 사람이 같은 성격을 선택한 경우, 우리는 바위, 종이, 가위를 연주하여 누가 그것을 얻는 지 결정합니다 네 번째 임무를 위해 참여할 웹툰 캐릭터

여기 있습니다! ( "참다운 아름다움"의 주경 / 유행하는 여성의 표정으로 여신이 됨) (Hwi-sun) 나는 그것을 알고 있었다 (준우) "진정한 미녀"아닌가요? "진정한 아름다움" (손실시) 화요일 웹툰

(Hwi-sun) 어떻게 모방합니까? 화휘, 너 그녀를 원해? (휘 – 태양) 나는 준우가 그녀에게 어울릴 것이라고 생각한다 오, 준우? 그건 사실이야 (김희철) 누가 주경 캐릭터를 시도하고 싶습니까? 손을 보여줄 수 있을까요? (여자 Goganzis조차 어려운 곤란한보기) 태권도를 처음부터 그럼 내가해야 할까? (Gyo-jin) 주경이 첫 등장 인물이기 때문에, 나는 나머지를보고 싶었다 (수 빈) 스타일 측면에서, 나는 비슷한 옷을 입은 캐릭터를 원했다

우리는 지금 주경을 지나칠 것이다 다음 문자가 있습니다 (패션 디자이너 인 한남동 케이 하우스의 덕수) (Jun-wu) 그는 시골에서 온이 아이입니다 아니,이 사람은 아니야 덕수를 원한다면 손을 들어주세요! 손 들어

(단 하나의 손이 아니라, 다시) (휘 – 태양) 우리는 똑같은 의상을 찾아야 해 그래서 그를 완벽하게 덮는 것은 어려울 것입니다 (유비) 흰색 줄무늬가있는 분홍색 나는 그것을 본 적이 없다고 생각합니다 (리몽) 나는 그것을 다룰 수 없을 것이라고 생각한다

내가 가장 자신이없는 스타일이었습니다 좋아 (지금 당장 덕수를 따라 가라) 누군가 그를 끝내게 될 것이다 그리고 다음 캐릭터는

(Hyung-suk, "Lookism"에서 완벽한 몸과 외모로 대단히 인기가 있음) (호 일) 형석이 좋다 (유비 자원 봉사자들) 나 오, 유비 (손이 올라간다) Lee-mong! (나도) 오, 현

오 수현 (준우, 수현, 이몽, 유비 네 손을 들어라) 준우 아니, 아니, 나는 이것이 하나라고 생각하지 않는다 Lee-mong, 네 손을 내 렸니? (리몽) 나는 나는 그들이 입은 것을 벗을 수 있었다 Yu Bi, Su-hyun, Jun-wu

세 분 손을 높이 들어주세요 가위 바위 보 (Yu Bi가 암석을 선택 함) 가위 바위 보 (수현이 이긴다) 오, 심수현! 형석이 되라! (이 얼마나 부끄러운

) 여기에 다음 문자가 온다 응? 그게 누구야? ( "한남동 K 하우스"의 여신, 화려한 옷을 입은 디자이너와 모델) 너무 많아 (기침) (호이 선은 관심이 있습니까?) 호이 선? 아니, 아니

(Su-bin) 나는 그것을 벗을 수있는 것처럼 느낀다 (Su-bin) 이것은 힘들다 (자원 봉사자 여신을 재생?) 누가 시도하고 싶어? 손을 들어주세요 (침묵) (그렇다면 ) 다음 캐릭터를 보여주십시오 ( "진정한 아름다움"의 서준은 주경을 좋아하고 독특한 패션 감각을 가지고있다) (이것은 그 것이다!) 이것은 좋은 것입니다 (최대 손) (유비)이 사람은 잘 입는다 (너무 많은 자원 봉사자들) (이미 선발 된 수현을 제외한 모든 남자가 원한다) (Hwi-sun) 그것은 내가 좋아하는 스타일이다

한 번 이상 시도하려는 스타일 (Yu Bi) 나는 서준을 정말로 시험해보고 싶었다 그것은 내가 모방하고 싶은 스타일입니다 네명, 네 손을 들어라 (운명 바위, 종이, 가위를 통해 결정) 내 말에

(누가 서준을 얻을 것인가?) 바위, 종이, 가위 가위 바위 보 (준우, 유비는 제거된다) (That sucks ) 준우! 그는 너무 실망 스럽다 (Jun-wu) 그는 나를 닮았다 네가 옳아 그것은 도움이 될 수 없습니다 (Hwi-sun과 Lee-mong으로 간다) Rock, paper, scissors! (우승자는

) 바위, 종이, 가위 (내가이 겄어!) 정 리몽 (Jeong Lee-mong)에게 간다 (리몽) 나는 덮개 임무가 정말로 어려울 것이라고 생각한다

나는 누군가를 전달해야합니다 정말 잘 생긴 반대입니다 나는 그것이 어려울 것이라고 생각한다 문자가 많지 않습니다 단지 두 자 이상 우리는 다음에 어느 캐릭터를 얻을 것입니까? 여기있어! ( "진정한 아름다움"의 수호) / 젊고 부자이고 잘 생기고, 어떤 브랜드를 끌어 낸다) Su-ho, Su-ho! (Yu Bi가 다시 시도) (세 사람 사이의 또 다른 전투)이 세 사람은 정말로 그것을 원할 수도 있습니다

그러나 그들은 이것이 이것이 그들의 마지막 기회라고 생각할 수도 있습니다 (불안한 성장) 가위 바위 보 응! 가위 바위 보 (준우는 제거됩니다) – 알았어 – 하하

이봐, 너 재밌다! (준우는 계속 잃는다) Yu Bi와 Hwi-sun (누가 수호가 될 것인가?) 바위, 종이, 가위 가위 바위 보 (호이 – 윈) 화 – 일 호이 선, 너는 잘 할 수있어, 그렇지? (자신감 넘치는) 물론

내가 그 사람처럼 보이지 않기 때문에 (호 – 태양) 나는 육체적 인 것들을 업그레이드해야하고 외관 (준우, 교진, 수빈, 유비는 아직 선택하지 않았다) 이것은 모두 마지막 캐릭터입니다

마지막 문자 마지막 문자 이거 야 오, 바스코, 바스코 바스코? ( "Lookism"의 Vasco / 유행에 0의 관심사로 아직 순진한 협박) (유비와 수 빈 자원 봉사자) 오! 수 빈? 예

그 의미는 (Yu Bi) 나는 바스코 (Basco)를 위해 손을 든 사람이 없을 것이라고 생각했다 그래서 나는 수빈이 손을 들고 놀랐다

(Su-bin) 비슷한 스타일이있는 것 같았습니다 나는 그를 여성 버전으로 만들 수 있다고 생각했다 (누가 바스 코 남자가 될 것입니까?) Su-bin, Yu Bi 가위 바위 보 (Su-bin) (또 다른 끔찍한 손) 나는 희망이 없다

(수 빈의 임무를 기대 함) 나는 수 빈이 위대 할 것이라고 솔직하게 생각한다 (수 빈) 그는 고등학생이며 친절하고 충성심이 좋습니다 그냥 바보 그는 그만두기가 약간 어려워 보였습니다 아직 선택하지 않은 세 사람, 한 걸음 앞으로 나아가십시오

(나는 죽어가는 것처럼 느껴진다) 유비는 죽을 수있는 것처럼 본다 (한 번 더 선택되지 않은 문자로 이동) 우리는 처음으로 돌아갈 것입니다 ( "한남동 K 하우스"덕수) 덕수 덕수

(나를!) Yu Bi, Yu Bi 덕수를 만나러 왔어 (Yu Bi) 나는 바스코를 잃었다 덕수 캐릭터는 내 이미지와 잘 어울릴거야 (왼쪽 2 개만) 주경과 여신

(준우) 주경은 내게 너무 많다 (웃기는 그냥 그것에 대해 생각) Jun-wu가 Ju-gyeong을 얻는다면 그것은 흥미로울 것이다 내 생각에 그게 그 사람에게 맞을 것 같아 조용한 조용히, 조용히해라

손을 들어 (최종 바위, 종이, 주경과 여신을위한 가위) 가자! 가위 바위 보 응! (패자 / 수상자) (저주받은 손은 다시 잃는다) (엄마 ) 하하 와우, 준우 제발, 한번 도와주세요 Jun-wu, 이것은 다양한 쇼 신들의 작품입니다 (주경 대 여신) 교진의 선택은

( "참다운 아름다움"에서 주경을 선택한다) 나는 첫 번째 인물을 취할 것이다 주경? (이 얼마나 경감!) 와우, 완전한 변압기! 잠깐 (앞으로 총체적인 변형을 기대한다) 나는 완전한 변화를 의미했다

(Junwu는 여신이 되려고했다) 나는 너무 흥분하여 말을했다 (김희철) 현재의 스타일과는 아주 다른 것입니다 (교진) 나는 내가하고 싶다고 생각했다 여성스러운 드레스 결국 나는 새로운 도전에 도전하고 싶었습니다

그래서 저는 주경을 선택했습니다 ( "주경"이 아닌 "주경"!) Goganzis를위한이 시간 이건 완벽한 표지가되어야 해, 그렇지? 그래서 Goganzis를 위해, 우리에게는 전문 미용사, 메이크업 아티스트 및 사진 작가가 있습니다

(유비, 덕수 / 수현, 형숙 / 준우, 여신 / 수 빈, 바스코) (호선, 수호 / 교진, 주경 / 이몽 – 서준) (Goganzi의 네 번째 임무 인 웹툰 캐릭터 스타일링) (선교가 시작된다!) (완벽한 웹툰 캐릭터가되기 위해) (Goganzis는 용감하게 임무를 수행함) (Goganzi의 네 번째 임무 인 웹툰 캐릭터 스타일링) (쉬는 시간과 일부 Tik Tok) (각도 변경) 나는 스티커를 선택해야한다 (이 비디오는 Goganzi Tik Tok 채널에서 볼 수 있습니다) 이것은 흥미 롭다 스티커를 사용하십시오 우리는 전문 사진가와 헤어 및 메이크업 아티스트를 보유하고 있다고 말했습니다 그래서 우리 중 누구도 메이크업을하지 않습니다 아 (약간의 터치가 미리) 나는 당신이 모두 화장을했다고 생각 (당신은 무엇을 말하고 있냐?) Gyo-jin를 조사해라

(넌 죽었어!) (화장이 충분하지 않음) 너는 궁금한가? – 예 – 예 (프로듀서) 들어 오세요 (어떤 메이크업 아티스트가 Goganzis에 완벽한 표지를 제공할까요?) (누구 시죠?) 누구 시죠? 누구? 이봐, 잠깐만! 여보세요 (잠깐,이 아가씨?) 안녕

(그녀의 웹툰 캐릭터 커버 시리즈로 유명한 뷰티 크리에이터) (인기있는 YouTuber 가입자 510 만 명 포함) (YouTuber, KIMDAX) (웹툰 메이크업 전문가의 조언) 아무도 정확하게 캐릭터를 닮지 않습니다 (나는 수호가 될 수 없다?) 그래서 내가 메이크업을해라, 나는 그것을 할 수있다 코스프레 같은 느낌이 들지 않습니다 실제 인물이라면이 캐릭터가 어떤 모습일까요? 나는 당신의 안면 특징을 활용할 계획입니다 또한, 나는 당신의 모든 노하우를 사용하고 싶습니다

그래서 나에게 맡겨라 같이 재미있게 지내자 네 감사합니다 (KIMDAX!) 나에게 서준처럼 날카로운 표정을 줄 수 있니? (이몽은 야심 찬 꿈을 가지고있다) (친절한 눈) 나는 최선을 다할 것이다 나는 최선을 다할 것이다

(촬영 전에 주스로 붓는 것을 돌보는 것) 맛있어요 (꼬박) 실제로 좋습니다 이것을 마시고 체중을 줄이면 기분이 좋아질 것입니다 (KIMDAX, 완벽한 메이크업 커버 준비 중) (어떤 종류의 마술이 여기서 일어날까요?) 여보세요 (웹툰 캐릭터 도전에 대한 첫 번째는 준우입니다

) (KIMDAX) 사진을 찍고 여신처럼 보이기 위해서 코는 매우 만화처럼 슬림해야합니다 그래서 코를 조여 줄거야

여기에 약간의 음영을 추가하십시오 니가 무슨 말하는지 알지? 내 코 (준우는 메이크업이 필요한 부분을 모두 확인합니다

) 조금 뾰족한 부분입니다 그걸 내가 숨기고 싶니? (메이크업 어플리케이션이 마침내 시작됩니다) (여신 코 브리지 만들기) (KIMDAX)이 울퉁불퉁 한 지역들 들여 쓴 부분을 밝게하면 부드럽게 보입니다

(교진의 호기심은 그녀의 최고를 얻는다) (똑바로) 그는 예쁘게 보인다 (내가 본 첫 번째 남자는 나보다 더 섹시하다) 여자보다 예쁘다 (나중에 유비가 들어갑니다) 잘 생겼네

(반짝임, 반짝임) 눈이 너무 커서 화장을하는 것이 쉽습니다 (Snickers) (수줍은) (거대한 눈은 눈 화장을 보는 재미를 만든다) (완벽한 체리 입술) (슬라이드 오른쪽) (주위) 눈은 똑같아 보입니다 (오! 나는 수호와 기회가있다!) 이것은 나를 위해서도 가능하다 (터널의 빛) (그의 얼굴을 관찰하다) 당신은 너무 예쁘다 나는 거울을보고 나서 충격을 받았다

너 어쩜 그렇게 예쁘니? (어떤 종류의 표정이 매장에 있습니까?) (준우의 완벽한 커버 미션 공개) (Hwi-sun) 그들은 심지어 복장을 자신의 크기로 가지고 있나? (수 빈) 여자 사이즈가 아닌가요? 하지만 그의 키가 아니면 그의 치마가 짧을까요? 그는 털이 많습니까? (윤휘선, 준우를 염려) 그의 다리가 멋있을 것인가? 와우, 그럴 가치가있어 (잠깐, 방금 나 한테 뭘 지나쳤 니?) – 그가 왔어

– 이럴 수가 나는 그것을 보지 못했다 무슨 일이야? (펄럭 이는 드레스) 나는 볼 수 없다 와우 (Jun-wu) 내가 주저했다면 좋지 않을 것입니다

그래서 저는 자신있게 나섰습니다 (눈에 띄는 자신감) (귀여움 과부하) 이것은 정말로 미친 짓이다 (잃어버린 단어들 ) (나는 여신이다 나는 여신이다 ) 손 내려, 너 좋아 보인다 그러나 그의 송아지는 너무 두껍습니다 (벌크) (포도 주스는 포도주가 아닙니다) (사진 작가는 준우의 열정에 영혼을 더한다

) 그것은 덥다 (치명적인) 그의 눈 미소를보세요 그의 눈 미소를보세요 준우, 다른 쪽이야 (자연스럽게 보며 침착 함) (그래서 치명적으로 그것은 거의 범죄로 간주됩니다) 그 사람 포즈가 너무 좋지 않아? (마스터 모델) 측면에서는 것이 훨씬 좋아 보인다

(그의 모니터링에서 꼼꼼하게) 나는 카메라를 보지 않을 때 더 좋다 (Hwi-sun) 그는 모두가 기대했던만큼 좋았습니다 (Gyo-jin) 그는 정말 예뻤습니다 나는 그의 사진이 위대한 것으로 판명났다 (사진 작가) 우리는 거의 끝났다고 생각합니다

괜찮아 (준우는 10 분만에 끝납니다) 준우는 다 끝났어 (이미 끝났어?) 그는 끝났어 (기뻐) 이제는 화선의 차례 야

(사진 작가) 최고의 상처가 너무 많습니다 정말? 고맙습니다 나는 질투심이 많다 (평화) (Jun-wu) 내가 이기기 위해 하녀로 차려 입어야 했어 (세련된) (Goganzi의 다음 웹툰은 누구입니까?) 언제 나올거야? 스 호! 스 호! 너 비슷한데

웃지 마 웃지 마 그것은 좋은 반응입니다 – 좋은 반응이야 – 잘 보일거야

(바로 뒤에서) 그것은 정말로 남자 친구 모양입니다 그는 꽤 넓은 어깨를 가졌어 – 왜 나오지 않는거야? – 왜 나오지 않는거야? 궁금해 (호위의 완벽한 표지 임무가 마침내 밝혀진다) (이 Hwi-sun 또는 Su-ho입니까?) (Ta-da) (잘 생긴 변형) 무슨 일 이니? (태양 광은 어떻게 변할 것인가?) 그것은 극단적 인 도전입니다 (KIMDAX) 수호는 다른 잘 생긴 캐릭터들 사이에서도 잘 생겼다고 생각합니다

Hwi-sun의 얼굴의 가장 예쁜 부분들 그럼 내 가장 예쁜 부분은 뭐니? 나는이 밝은 부분들을 정말로 어둡게 만들 예정입니다 (이미 계획 중입니다) 저는이 모든 것을 강조 할 것입니다

자신감이 열쇠입니다 내 자신감에 관해서 너는 그걸 너무 많이 가지고 있니? 훌륭합니다

– 수호의 특징은 그의 예약 된 모습입니다 – 예약 됨 예, 예약되었습니다 그건 내게 어울리지 않는다 그냥 웃지 마

좋은 (Hwi-sun은 웃지 않으려 고 노력합니다) 그것은 당신이 원하는 모습입니다 (KIMDAX) Su-ho는 크고 밝은 학생들입니다 그래서 당신이 콘택트 렌즈를 착용해야한다고 생각합니다

렌즈? 네, 렌즈 요 전에 입었 니? 아니, 이번이 처음이야 (처음으로 콘택트 렌즈 착용) 처음으로 내 인생에서 이런 식으로 삽입하십시오 (시도하지만 실패 첫 시도) 그건 실패한거야 (이것은 무엇입니까? / 두 번째 시도가 실패합니다) 그렇게하지 마세요 (세 번째 시도 실패) 나는 거의 그것을 얻었다 (KIMDAX로부터 도움을받습니다) 볼 수 있도록 무서워하지 않습니다 똑바로 봐 우리는 한 번에 그것을 얻을 것이다

따 이제 깜박입니다 (그의 눈동자는 더 깊어졌다) (이제 반대편) 앞으로보십시오 우리는 거기에 갈 내 눈이 더 커 보입니다

(김 맥스) 이제, 이마 눈썹? 예 화이암은 눈썹을 가렸다 그래서 나는 그들을 거의 똑바로 만들 것입니다 (그의 눈썹에 영혼을 더함) (매우 기쁜) (웃음은 그의 기쁨을 정말로 보여준다) 나는 예쁘다

나는 그것을 좋아한다 (Hwi-sun) 화장이 정말 좋아 보였다 나는 내가 가지고 나올 수 있다고 생각해 내가 가지고있는 것보다 훨씬 더 오늘 화이썬이 왜 그렇게 잘 생기지? 알아

그는 잘 생겼다 그는 매우 기쁘게 본다 (그래서 세련된) (Jun-wu) 그의 사진은 멋지다 그는 나가서 잘 생겼다 "와우, 무슨 일 이니?" 그는 계속 거울을 들여다 보며 모두가 그를 칭찬했다

그래서 그는 실제로 정말 멋지다고 느꼈습니다 (그게 좋은 일이 아니란 것, 화이썬) 나르시시즘인지 모르겠다 그러나 그는 계속 거울을 들여다 보았다 (기침) 나야 이거 야? 그래, 너야 그래, 너야

(새로운 모습을 소화 한 것) 나는 이런 모습을 본적이 없다 너 오늘 멋지다 알아, 그렇지? (다음 Goganzi는 무엇입니까?) (바스코 수 빈) 바스코 나는 개인적으로 이성을 플레이해야하는 사람들이 재미있을 것이라고 생각한다 (어서, 수빈) (KIMDAX) 바스코의 눈에 띄는 특징은 눈썹이다

(눈썹은 반으로 자른다) 그는 여기에 눈썹이 없다 – 그 부분을 없애 버릴거야 -이 부분을 가리켜 야합니다 우리가 그걸 만들거야

나는 그것을 면도 할 필요가 없다, 그렇지? 물론, 우리는해서는 안됩니다 물론, 우리는해서는 안됩니다 (KIMDAX) 나는 특별한 화장을 가져왔다 – 그건 안도의 문제 야 – 우리가 면도 한 표정을 줄거야, 알았지? 네, 괜찮습니다

(KIMDAX) 콧수염이 문제입니다 – 우리가 어떻게해야합니까? – 수염? 우리가 그걸 그리는 건 어때? (완벽한 커버를 위해 콧수염을 그립니다) 빛의 그림자 예 알았다 내가 지금부터 시작하겠습니다

바스코가 나 한테 맞을 거라 생각 했어 그래서 나는 그것을 고대했지만, 나는 또한 매우 걱정했습니다 안녕, 형 (너무 예절 바래) 잘 지냈니? 나는 방금 시작했다 너 그냥 시작이야? (Vasco vibe를 끕니다

) 당신은 똑같이 보입니다 수 빈은 심각하게 예쁘다 그녀는 긴 머리로 정말 섹시합니다 카카오 톡에있어? 예 나는 그것이 그녀라고 생각하지 않았다

(진정한 여신은 여기에있다) 같은 (수 빈) 남성 캐릭터이기 때문에 나는 내가 제대로 커버를 할 수 있을지 걱정했다 (곧 올 예정) 내 눈썹은 정말 없어 졌어 오, 내 눈썹 (완전한 혼란) 그녀에 대해 우리가 무엇을 할 것인가? (수 빈의 모나리자 옴) 내 눈썹을 웃지 마라

(한숨) 바스코처럼 보이기보다는 (그녀의 눈썹이 사라진 후 충격을 받았다) 나는 방금 집이없는 것처럼 보였다 (수 빈) 나는 바스코처럼 보이지 않기 때문에, 나는 내가 원했던 효과가 없었다

(내 눈을 크게 보았다, 수빈) (수빈이 그녀의 옷을 갈아 입는다) – 좋아 보이는데 – 좋았어 그냥 자신감을 가져라 (마침내 바스코 수빈의 계시) (놀라다) (만나서 반갑습니다, 저는 빈 스코입니다) (진짜인가요?) 내가 옳은가요? (Jun-wu) 그녀는 정말 보스처럼 보였습니다 진짜 바스코처럼

(수 빈 대 빈스코) (Lee-mong) 그것은 그녀에게 정말 적합했습니다 그녀는 바스코 (Vasco)로서 정말 좋게 보였다 (당신은 박동을 얻을거야) 무서운 그녀는 완전히 무서워 사진처럼 보이지 않는가? 감옥에 가기 전에 데려다 줄거야? (다른 말로하면) 낯짝을 쏜거야? 네

(2019, 윤수빈) 우리는 배경으로 숫자가 필요합니다 그것은 머그컵과 같습니다 (그리고 사진?) (삼) (2) (1) (미소) (다시 미소 짓는다) 그들은 잘 나가고있어 하지만 그게 문제라고 생각해 실례합니다? (가혹한 논평) 그게 무슨 뜻입니까? (사진) 당신이 좋아하는 상처가 있습니까? 나는 내 얼굴이 그들 모두를 망쳤다고 생각한다

(Su-bin) 시청자가 내 얼굴을 보았다면 관련 될 수 있습니다 (웃기는 얼굴) 나는하고 싶지 않았지만 나는 웃을 수 없었다 (웃지 마라 / 웃지 마라) 나는 내 얼굴을 볼 때 계속 웃는다 (그런 어려운 시각 ) (사진 작가) 그래 나는 그것을 얻은 것 같아

다시 가기 (수 빈은 인물이되어 다시 집중한다) 그거 좋았어 (완벽한 표지 임무는 순조롭게 진행됩니다) (슛이 잘 끝납니다) 알겠습니다

잘 했어 (수 빈) 바스코와 같이 강한 존재감을 가지고 있었다고 생각합니다 그래서 나는 만족한다 (트리밍) (그의 눈썹이 전문적으로 손질되는 이몽) (단순히 그의 눈썹에 슬릿을 추가했습니다) (이미) (내 모습으로 떨어지다) (뺨을 감동) (정 이몽 (19 세) / 오늘 KIMDAX의 팬클럽에 가입 함) 나의 얼굴이 절반으로 줄어 들었습니다 (낙심) 내 눈이 쭈그리고 앉아

(원하는 것을 의미합니다) 나는 의미있는 모습으로보고 싶습니다 의미있는 표정? 예 너 코로 (날씬한 코를 갖고 싶다) 뾰족하게하십시오 (그의 소망을 성취한다) (이게 다야!) 내 눈은 정말 의미가있어 (음영의 힘) (서준의 이미지를 확인한다) 이것은 내가 기대했던 것보다 훨씬 쉽다 (약간의 체리 입술) 서준은 체리 입술을 가지고있다 그래, 이거

체리 입술 (리몽) 나는 완전히 바뀌었다 그녀가 내게 성형 수술을 한 것 같았습니다 (두 번째 어머니는 당신을 사랑합니다) 진심으로, 그녀는 너무 (변형 된 이몽의 촬영) (전 후) (순수한 눈) 너 지금 너무 친절 해 (찡그린 얼굴 추가) 잘못된 느낌 (웃음 금지) 웃지 마 당신은 미소 지을 수 없습니다 (뒤로 잡으려고 노력하지만 미소를 지을 수는 없습니다

) 표현이 너무 밝아 (Lee-mong facing difficulties) 몽은별로 화를 내지 않는다 (Lee-mong) 서준의 눈은 내 것과 완전히 반대였다 나는 그것을 할 수 없었다 그 얼굴에 어떻게 붙이십니까? (당신은 어떻게 화 나니?) 그 화난 얼굴? 조금 날카롭게 보자

왼쪽 눈썹을 들어야합니다 (이 같은) 아니 아니 (당연히 순수한 심장) 작동하지 않습니다 (하지만 내 임무는 ) (나 자신을 놓아 버리려고) 그런 것 이봐, 좋아 보인다 (서준되기) 그 길입니다 (그러나 다시 위로 미끄러 져) (웃을 수는 없지만) (아니, 할 수있어!) 다시

(나는 이것을 할 수있다) (리몽) 서준처럼 80 % 정도는 보였다고 생각합니다 나는 확신한다 (Su-bin) 그는 똑같이 보였다 그의 멜빵과 찢어진 바지로 만든 벨트 그는 세부 사항을 올바르게 가지고있었습니다 그는 거의 완전히 동일했습니다 (리몽) 나는 만화에서 곧장 나오라고 보여줄 것이다 (유비) 덕수를 어떻게하면 좋습니까? (유비는 왜 그렇게 불안해?) (유비) 덕수 캐릭터가 옷을 입었다

(핑크 줄무늬 자켓) 색상과 패턴을 찾기가 정말 어렵습니다 나는 정말로 걱정된다 그 옷을 찾는 법 (유 바이오가 임무를 위해 동무로 간다) 동 몽이 이런 유형의 재킷을 가지고 있을까? (제로 신뢰)이 패턴 그 패턴? 예 (그냥 Dongmyo를 신뢰하십시오) 주위를 둘러 보면 확신합니다 (동명에서 줄무늬 자켓을 찾으러 왔을 때) 부인, 자켓이 있나요? 아니 너하지 않니? 이 색깔의 자켓이 있습니까? 줄무늬가있는 분홍색이 아닙니다 너하지 않니? (불안감) (유비) 나는 그것을 찾을 수 있었으면 좋겠다 나는 오늘날의 선교가 지금까지 가장 힘든 일이라고 생각한다 이걸 못 찾으면 어떻게 될까? 촬영을 위해 정상에 입을 필요가 없습니까? 그게 내가 걱정 한거야

(자켓 / 핑크색 침전물을 찾을 수 없음) (재킷은 임무와 일치하지 않습니다 괜찮을까요?) 바로 이것입니다 (유비는이 장애물을 어떻게 극복 할 것인가?) 여보세요

무슨 일이야? 그는 정말로 그와 닮았다 여보세요 (어디에서 그가 찾았습니까? / 핑크색 줄무늬 자켓으로 입으십시오) 무슨 일 이니? 여보세요 (정확히 똑같은) 그는 그와 똑같아 보인다! 그는 실제 생활 판입니다 (Yu Bi) 나는이 줄무늬로 그렸습니다

(일어 나라!) (유 바이 페인트는 그 자신의 줄무늬로) (존경) 너 진짜 거래 야 (내가 알지) (사진 작가) 좀 더 흥분 할 수 있다고 생각합니다 네! 나는 그것을했다! (그의 마음과 영혼을 그 속에 넣음) (수현) 유비가 최선을 다 했으니 까 (Hwi-sun) 그는 자신의 의상을 가지고 최고의 세부 사항을 가졌습니다 (나는 덕수 야!) 그래! 네! (사진 작가) 모두 완료되었습니다

괜찮아 귀하의 표지 임무는 완벽합니다 너 정말 잘했다 (커버 임무는 박수 갈채로 끝납니다) (변신을위한 준비가 된 징진) 당신은 앞머리가 없다는 것은 어색하다고 말했다 – 들었어

– 맞아 (프린지가 없다면 똑같아 보인다) 나는 내 이마를 드러내 본 적이 없다 주경과 함께 (KIMDAX) 그녀는 자신에 대한 자신감이 없었습니다 그렇다면 그녀는 자신감을 찾는다 나는 화장을 입을거야 (메이크업 마술) 영혼을 주경으로 바꾸자

(강한) (Gyo-jin) 주경은 사랑 스럽다 너무 어색해 나는 긴 머리를 가진 적이 없다 나는 결코 사랑스럽지 않은 옷을 입은 적이 없다 (교진의 평소 스타일

) 혹시 바위가 마음에 드십니까? 오, 로커 느낌? 나는 펑크 옷 입는 것을 좋아합니다 누구나 볼 수 있습니다 (누구든지 임 주경 2 번과 완전히 반대되는 것을 볼 수있다) (흠

) 그것은 완전히 반대입니다 이것은 교감의 진정한 도전입니다 권리

(Gyo-jin)이 쇼에서 내가 뭘하고 싶은지, 새로운 것을 시험해 보는 것입니다 내 이미지를 약간 변형시키고 싶었다 (다른 시도, 생소한 표정) 나는 여성스럽고 입어보고 싶다 와우 덕수가 왔어 내 셀카를 봐라 안녕하세요 (아름다운) 오, 그게

(카메라가 충격에서 떨림) 손짓이 바뀌 었습니다 섬세하고 부끄러워 (Yu Bi) 그녀는 사람들을 때렸다

(펀치) 이제, 그것은 마치 이 같은 ( "진정한 아름다움"이 됨) (교진은 어떤 모습일까요?) 어머

무슨 일이야? 이봐, 이건 교진이 아니야 (수현) 나는 충격을 받았다 그녀는 바비 인형처럼 보인다 (금교진 (18 세) / 바비 인형) 바비 인형 (Gyo-jin) 나는 그것이 그렇게 과감하다고 생각하지 않는다 (Goganzis가 변신 된 Gyo-jin을 기다림) (문이 열리고 타다) 와우 그녀는 완전히 다른 것처럼 보입니다 (Staring) 알아

(진정한 아름다움) 그녀는 완전히 다른 것처럼 보입니다 (완전히 주경으로 변모했습니다) (수현) Gyo-jin은 놀라웠다 (수현) 교진의 완전히 새로운면 (리몽) 그녀는 정말로 주경처럼 느껴졌다

(주경 사진 촬영 시작) 거기에서 몇 걸음 내리십시오 – 괜찮아 – 해 보자 (너무 많은 기대) (스텀블) (LOL) 한숨 (교진) 처음으로 나는 프릴이있는 여성스러운 드레스를 입었다

그래서 나는 정말로 어색함을 느꼈다 내 손짓 사랑스러운 표현

(이처럼) (Gyo-jin) 그것은 온통 어색함을 느꼈다 (Photographer) 당신이 떠있는 것처럼 당신은 걸어야합니다 똑바로 걸 으세요 (누구나 교진을 돕는다) 곧장 걸어 라

(이것처럼?) 와우 (수줍은) (단계가 자연스러워졌습니다) 그녀는 너무 사진 적입니다 (모두들 감탄했습니다) 이것은 놀랍습니다

(그녀의 사진을 아직 확인하지 않았다) 그것은 훨씬 좋아 보인다 (교진이 그녀의 사진을 본다) 나야? 그게 나야? "나야?" "나야?" 그녀의 목소리가 항상 크게 들렸습니까? (그것에 대해 확실하지 않음) (Gyo-jin) 완전히 지워진 것 같았습니다 소녀가 있었는데, 정확하게는 아니지만 주경과 닮았습니다 나는 100에서 97을 줄 것입니다, 그렇소? 놓치지 마세요! 그 사람 (4 명의 Goganzis 중 거의 지난 주에 제거 된) 남아 있습니다 (기적적으로 와일드 카드로 저장 됨) 하나만있을 수 있습니다

심수현입니다 그는 우리와 함께 할 수있는 기회를 얻습니다 (수현) 좋은 기분이나 나쁜 기분에 관계없이, 나는 단지 그것을 보상하고 싶다고 생각한다 그래서 나는 내가 실망 할 것이라고 생각하지 않는다 (KIMDAX의 최종 고객) 안녕하세요

형석의 특징은 날씬한 턱과 날카로운 코다 그래서 저는 여러분의 특징을 화장으로 더 돋보이게하려고 노력할 것입니다 괜찮아 나는 당신이 그를 더 닮게 만들기 위해 집중할 수있는 영역에 대한 어떤 제안을합니까? 턱 턱? 좋아, 알았어

(KIMDAX) 왜? 턱에 불만이 있습니까? 나는 여기에 많은 지방을 가지고 (용서?) (KIMDAX) 이것은 단지 아기 지방입니다 괜찮아

(아기의 지방은 젊음의 상징입니다) 나이가 들면 그 모든 것을 잃게됩니다 (수현) 박형석은 정말 슬림하고 키가 크다 그는 모든 것을 가진 사람입니다 그러나 나는 둥근 얼굴을 가지고있다

우리는 다르게 보입니다 (생산자) 나는 네 지방이 어디 있는지 이해하지 못한다 (여기 / 당신은 어떻게 생각하십니까? 아래에 코멘트 남기기) 이것은 모두 베이비 지방입니다 (Self-diss) 나는 심지어 교복을 입고도 잘 어울리지 않는다 왜? 이 사람은 자신감이 없습니다

(잘 끝낸다) 그러나 그는 사진 촬영에서 잘한다 – 오, 나 알아 (수현) 솔직히 말해서 형석은 나에게 달랐다 (심수현 (18) / 불안해 함) 나는 정말로 걱정했다 내가 그걸 풀 수 있는지 여부

이것이 웹툰 표지를 완성한 것이기 때문에 자신감에 관한 것입니다 (KIMDAX는 그를 편안히하기 위해 수현을 칭찬한다) 그래서 여기에 교복을 입는다 네가 형숙이라고 생각해 (Goganzis는 모두 아고 그다) 나는 기다릴 수 없다

나는 정말로 기다릴 수 없다 (유비) 형석은 잘 생긴 캐릭터 중에 잘 생겨서 유명하다 (교복과 함께 완전한 변화) 와우, 당신은 그를 닮았 어 확신을 가지고 자신감을 얻으십시오 (형숙이 방에 들어온다) (복사 붙여 넣기) 그들은 똑같이 보입니다

안녕, 형숙 (수줍음) 형숙! 놀랄 만한 (경고) 위대한 감수성 (반 농담, 반 진지한) 이것은 힘들 것입니다 (형격 촬영 시작) 우리가 촬영을 시작하겠습니다

(어색한) 어색하고 어색한 어떻게 놀랄 것 같니? (문자로 들어가기) 잠깐 (힘 / 어색한) (이것은 실제 행동입니까?) 하하 (그들은 모두 그를 매우 귀여운 것으로 안다) (사진 작가) 과장된 생각이 최선이라고 생각합니다 (과장하기 위해 최선을 다함) (Photographer) 이것은 놀라운 일이 아닙니다

이것은 정말로 어렵습니다 (수현) 선교사가 가장 걱정했던 것 그와 똑같은 포즈를 취하고있었습니다 나는 그 얼굴을 계속 지켜야한다 그러나 나는 너무 어색해했다 나는 전에 행동 한 적이 없어

너무 힘들었습니다 (수현이 다시 쏘기 시작합니다) 좋습니다 (어려운 얼굴 표정 때문에) (수현은 그의 촬영을 위해 가장 오래 걸렸다) (수현) 형석은 내가 생각했던 것보다 더 힘들었다 나는 오늘 내가 잘했다고 생각하지 않는다

(그의 사명을 완수 할 수 있을까요?) 잠깐 (Goganzi 네 번째 임무 캐릭터 스타일링 제안) (캐릭터 변신 촬영) (캐릭터를 재구성하는 새로운 방식) (자신감있게 자신의 사명을 수행하는 Goganzis) (Goganzi 임무 결과) (지금 당장!)

까까마까 #2 순서(개미와 베짱이)_스마트폰용 Kakamaka TV: sequence (The Ant and Grasshopper)

Ka Kaka Kakama Kakamaka Kakamaka TV Kakamaka #2 Sequence 덜컹 덜컹 휘이이잉(바람 소리) 덜컹 덜컹 개미의 집 Ah Ah Ah-!! Ah-!! Ah- Ah- 얌 얌 개미야! 무더운 여름이 오면 어떡하려고 그렇게 놀고만 있니? Ah- Ah- Ah- Ah- Ah- Ah- 쯧쯧

쨍 쨍 (뜨거운 햇볕) 끙 끙 헉- 헉- 끄응, 끙 헉- 헉- 저 새끼 저거, 겨울에 그렇게 놀더니, 내가 저럴 줄 알았어!! ?? 이이게 아닌 거 같은데 wolbut@naver

com By Wolbut 그림에서 6과 9의 두 개의 숫자가 숨어있습니다 찾아보셨습니까? 이번 편에는 과연 어디에 6과 9가 숨어있을까요? Kakamaka TV를 방문해 주셔서 감사합니다 앞으로 재미있는 만화를 많이 업로드 하겠습니다 '구독과 좋아요' 눌러주세요~♥

Learn Data Science Tutorial – Full Course for Beginners

데이터 과학에 오신 것을 환영합니다 나는 바튼 폴슨이고 우리가하려고하는 것은 무엇인가? 이 과정에서해야 할 일 우리는 간단하고 접근 가능하며 기술적이지 않은 개요를 가질 것입니다

데이터 과학 분야 이제 사람들은 데이터 과학을들을 때 생각을 시작합니다 같은 것들 : 데이터 및 방정식과 숫자의 더미에 대해 생각하고 상단에 던져 연구실에서 근무하는 사람들에 대해 생각해보십시오 나를 위해서가 아니야 나는 기술적 인 사람이 아니며 단지 너무 기술적 인 것처럼 보입니다

잘, 여기 중요한 사실을 알고 있습니다 많은 사람들이 실제로 해고당하는 동안 데이터 과학의 기술적 측면은 중요한 것은 데이터 과학은 기술 분야는 많지만 창조적입니다 그리고, 사실 그건 사실입니다 내가 말하는 이유 그 이유는 데이터 과학에서 코딩과 통계에서 나온 도구를 사용하기 때문입니다 수학 그러나 그것들을 사용하여 창조적으로 데이터로 작업하십시오

아이디어에는 항상 더 많은 것이 있습니다 한 가지 방법으로 문제를 해결하거나 질문에 답하는 것보다 가장 중요한 것은 통찰력을 얻는 것입니다 목표를 달성하는 방법에 관계없이 목표는 데이터에서 통찰력을 얻는 것입니다 과 다른 많은 것들과 비교할 때 데이터 과학을 독창적으로 만드는 것은 당신이 듣고 자하는 것입니다 표준 접근 방식에 쉽게 맞지 않는 경우에도 모든 데이터에 적용됩니다 분석 및 이유에 훨씬 포괄적 이도록 노력하는 패러다임 당신이하고 싶다는 것은 모든 것이 의미하기 때문입니다

모든 것이 의미를 전달하고 모든 것이 주변에서 일어나는 일에 대해 더 많은 이해와 통찰력을 줄 수 있습니다 그래서이 과정에서 우리가하려고하는 것은 당신에게 데이터 분야에 대한지도를 제공하는 것입니다 과학과 당신이 그것을 사용할 수있는 방법 그래서 지금 당신은 당신의 손에지도를 가지고있다 그리고 당신은 할 수있다

데이터 사이언스로 갈 준비를하십시오 데이터 과학 : 소개로 돌아온 것을 환영합니다 그리고 우리는 데이터 과학을 정의함으로써이 과정을 시작할 것입니다 그건 의미가 있습니다 그러나 우리는 재미있는 방식으로 일을하려고합니다

내가 얘기 할 첫 번째 것은 데이터 과학에 대한 수요 자, 잠깐 살펴 보겠습니다 이제 데이터 과학을 정의 할 수 있습니다 몇 가지 방법으로 짧은 정의를 드리겠습니다 내 정의에 하나 가져 가라

데이터 과학은 적용된 설정의 코딩, 수학 및 통계입니다 그건 합리적이다 작업 정의 하지만 좀 더 간결 해지고 싶다면 두 가지를 정의 그 데이터 과학은 당신이 생각하지 않은 다양한 데이터 또는 데이터의 분석입니다

표준 분석 접근법에 적합합니다 그것에 대해 생각할 수있는 세 번째 방법은 데이터 과학은 포괄적 인 분석입니다 여기에는 모든 데이터, 모든 당신은 당신의 연구 문제에 대해 가장 통찰력 있고 설득력있는 답을 얻기 위해 가지고 있습니다 자, 당신은 스스로에게 "기다려 그게 다야?"라고 말할지도 모릅니다 글쎄, 네가 감동하지 않는다면 몇 가지 것을 보여줍니다 첫째로,이 기사를 보자 그것은 말합니다, "데이터 과학자 : 21 세기의 가장 섹시한 직업 "이라고 말했습니다

이것은 하버드 비즈니스에서 나왔습니다 리뷰 그래서 이것은 권위있는 소식통이며 이것은이 말의 공식 출처입니다 : 그 데이터 과학은 섹시합니다! 자, 다시 말하면, 너 자신에게 "섹시한? 나는 거의 그렇게 생각해 "오 그래, 섹시하다 그리고 데이터 과학이 섹시하다는 이유는 첫째, 드문 자질을 가지고 있으며, 두 번째로 높은 수요가 있습니다 저에 대해서 좀 더 이야기하겠습니다 드문 자질은 데이터 과학이 비 체계적인 데이터를 취한 다음 순서, 의미, 및 데이터의 값

그것들은 중요하지만, 만나기가 쉽지 않습니다 둘째, 높은 수요 데이터 과학이 통찰력을 제공하기 때문에 수요가 높은 이유는 당신과 비판적으로 진행되는 일에 경쟁 우위를 제공합니다 비즈니스 환경에서 큰 일이다 이제 다시 돌아가서 수요에 대해 조금 더 이야기하겠습니다

몇 가지 다른 출처에 대해 살펴 보겠습니다 예를 들어 McKinsey Global Institute 매우 잘 알려진 논문을 발표 했으므로이 URL로 얻을 수 있습니다 그리고 네가 가면 그 웹 페이지,이게 올거야 그리고 우리는 잠시 살펴볼 것입니다 이 중역 요약입니다

다운로드 할 수있는 PDF 파일입니다 그리고 그걸 열면 이 페이지를 찾을 수 있습니다 그리고 오른쪽 하단 모서리를 살펴 보겠습니다 두 숫자 여기, 나는 그것들을 확대 할 것입니다 첫 번째 질문은 다음 몇 년 동안 140 ~ 190,000 명의 깊은 분석 인재를 배출했습니다

따라서 이것은 실제 데이터 과학자를 훈련시키는 것을 의미합니다 그것은 엄청난 숫자입니다 그러나 거의 10 번 150 만명이 넘는 데이터 이용자가 큰 관리자를 필요로합니다 미국의 데이터 이제는 반드시 분석을 수행하지 않는 사람들입니다 데이터를 말해야하는 사람들을 이해해야합니다

그리고 그것은 주 목적 중 하나입니다 이 특정 과정의 실습 데이터가 될 수도 있고 아닐 수도있는 사람들을 돕는 것입니다 과학자들은 데이터에서 얻을 수있는 것을 이해하고 사용 된 방법 중 일부를 배웁니다 거기까지 LinkedIn의 다른 기사를 살펴 보겠습니다 여기에 바로 가기가있다

URL을 입력하면이 웹 페이지로 연결됩니다 "가장 열띤 25 가지 직업 기술 2014 년에 고용 된 사람들 "그리고 여기 1 위를보세요 : 통계 분석 및 데이터 마이닝, 데이터 과학과 밀접한 관련이 있습니다 그리고 분명히 밝혀졌습니다 이것은 숫자였습니다

호주, 브라질, 캐나다, 프랑스, ​​인도, 네덜란드, 남아프리카 공화국, 아랍 에미리트 연합 및 영국 어디에나 그리고 만약 글래스 도어 (Glassdoor)를 보자 2016 년, 그리고 그것은 "미국 최고의 25 가지 직업"에 관한 것입니다 그리고 제일 오른쪽을보세요

여기, 그것은 데이터 과학자입니다 그리고 우리는이 정보를 확대 할 수 있습니다 거기가는 중이 야 1,700 개의 일자리가 창출되며 평균 기본급은 116,000 달러가 넘고 멋진 경력 기회와 직업 점수 당신이이 모든 것을 함께하고자한다면, 결론은 도달 할 수있는 것은 데이터 과학이 지불한다는 것입니다

그리고 나는 그것에 대해 좀 더 보여줄 수 있습니다 그래서 예를 들어, 여기에 미국에서 얻은 최고 10 대 급여의 목록이 있습니다 뉴스 우리에게는 의사 (또는 의사), 치과 의사 및 변호사 등이 있습니다 이제 데이터를 추가하면 O'Reilly

com의 데이터를 사용하여이 목록의 과학자 인 우리는 상황을 푸시해야합니다 그리고 들어간다 평균 총 급여로 3 분의 1 (우리가 다른 하나의 기초가 아니라 전체 보상금)은 1 년에 약 14 만 4 천 달러입니다 그건 특별합니다 그래서 요약하면, 우리는 무엇을 얻습니까? 이 모든? 우선, 우리는 데이터 과학에 대한 요구가 매우 높다는 것을 알게됩니다

둘째, 우리는 두 전문가 모두에게 긴요 한 필요가 있음을 알게됩니다 그것들은 일종의 연습입니다 데이터 과학자들; Generalists의 경우 언어를 사용하고 무엇을 알고 있는지 할 수 있습니다 그리고 물론, 탁월한 임금 그리고 모두 함께, 이것은 데이터 과학을 만듭니다 강력한 경력 대안 및 당신이하고있는 일에서 당신을 더 잘 만드는 방법

여기 데이터 과학에서 우리는 데이터 과학을 정의하려는 시도를 계속할 것입니다 현장에서 실제로 잘 알려진 것을보고 데이터 과학 벤 도표 이제 원한다면, 당신은 이것에 대해 "재료는 무엇인가?"라고 생각할 수 있습니다 "우리는 먼저 Drew Conway에게 감사의 말을 전하고 싶습니다 이것으로 원본 기사를 보려면이 주소로 이동하십시오

그러나, Drew가 말한 것은 데이터 과학이 세 가지로 구성된다는 것입니다 그리고 그것들을 겹쳐서 놓을 수 있습니다 동그라미는 중요한 교차점이기 때문입니다 여기 왼쪽 상단에 코딩이 있습니다 또는 컴퓨터 프로그래밍, 또는 그는 이것을 '해킹'이라고 부릅니다

오른쪽 상단에는 통계 또는 통계가 표시됩니다 또는 수학, 또는 양적 능력을 일반적으로합니다 그리고 바닥에 도메인 전문 지식, 또는 특정 분야의 실습에 친밀한 친밀감을 가져야합니다 : 비즈니스 또는 건강, 또는 교육, 과학 또는 그와 비슷한 것 여기 중간에 교차로가 있습니다 데이터 과학입니다

코딩과 통계, 수학 및 도메인의 조합입니다 지식 이제 코딩에 대해 조금 더 설명해 보겠습니다 코딩이 중요한 이유는 데이터를 수집하고 준비하는 데 도움이되기 때문입니다 많은 데이터가 소설 출처이며 수집 할 준비가 반드시 필요하지는 않으며 매우 드문 경우 일 수 있습니다

형식 코딩은 중요한 창의력을 요구하기 때문에 중요합니다 소스에서 데이터를 분석에 넣으십시오 자, 몇 가지 종류의 코딩 중요하다; 예를 들어, 통계적 코딩이 있습니다 이 중 몇 가지 주요 언어 R 및 Python입니다

두 가지 오픈 소스 무료 프로그래밍 언어 R, 특히 데이터 용 파이썬 범용이지만 데이터에 잘 맞습니다 데이터베이스 작업 기능은 중요합니다 너무

가장 공통적 인 언어는 SQL이며, 일반적으로 "Sequel"이라고 발음합니다 그것이 데이터가있는 곳이기 때문에 구조화 된 쿼리 언어를 위해 또한 명령이 있습니다 Mac 사용자는 "터미널"이라고 부릅니다 가장 일반적인 언어 실제로 Bourne-again 셸을 의미하는 Bash가 있습니다

그리고 검색은 중요합니다 정규식 또는 정규 표현식 거기에 배울 수있는 엄청난 금액이 없지만 (그것은 작은 필드), 그것은 일종의 super-powered 와일드 카드 검색을 가능하게합니다 데이터를 찾고이를 도움이되는 방식으로 다시 포맷 할 수 있습니다 귀하의 분석

이제 수학에 대해 몇 가지 이야기를 해봅시다 너는 물건이 필요할거야 확률의 조금처럼, 일부 대수학, 물론, 회귀 (매우 일반적인 통계 순서) 그 일은 중요합니다 수학이 필요한 이유는 다음과 같습니다

질문에 대답하기위한 적절한 절차를 선택하는 데 도움이 될 것입니다 당신이 가지고있는 데이터 아마 더 중요한 것은; 진단하는 데 도움이 될 것입니다 일이 예상대로 진행되지 않을 때의 문제 그리고 당신이 새로운 일을하려고하는 것을 감안할 때 새로운 방식으로 새로운 데이터를 사용하면 아마도 문제를 보게 될 것입니다

그래서 능력 무슨 일이 일어나고 있는지에 대한 메 커닉을 이해하면 커다란 이점이 될 것입니다 과 데이터 과학 벤 다이어그램의 세 번째 요소는 일종의 도메인 전문 지식입니다 자신이 속해있는 분야의 전문 지식이라고 생각하십시오 비즈니스 설정이 일반적입니다 당신 해당 필드의 목표, 사용되는 방법 및 제약 조건에 대해 알아야합니다

사람들이 우연히 만난다 결과가 무엇이든 관계없이 중요합니다 그들을 잘 구현할 수 있어야합니다 데이터 과학은 매우 실용적이며 성취하기 위해 고안되었습니다 어떤 것

그리고 특정 실습 분야에 익숙해지면 분석 결과를 구현할 때 훨씬 쉽고 효과적입니다 자, 가자 여기 벤 다이어그램으로 돌아가십시오 Venn이기 때문에 한 번에 두 원의 교차점 맨 위에는 기계 학습이 있습니다

바닥에 권리는 전통적인 연구입니다 그리고 왼쪽 하단에는 Drew Conway가 호출 한 것이 있습니다 "위험 지대" 이 각각에 대해 이야기하겠습니다 우선, 기계 학습, 또는 ML

이제 기계 학습에 대해 생각해 봅니다 여기서는 코딩을 나타내는 것으로 생각합니다 또는 통계 프로그래밍과 수학을 사용하지 않고 실제 도메인 전문 지식을 활용할 수 있습니다 때때로 이를 "블랙 박스"모델이라고합니다 그들은 데이터를 던져 버리고 반드시 그것이 의미하는 바가 무엇인지 또는 언어가 무엇인지를 알아야합니다

그리고 그것은 단지 친절합니다 모두를 통해 위기의 그리고 그것은 당신에게 몇 가지 규칙을 줄 것이다 그것은 매우 도움이 될 수 있습니다 기계 학습은 데이터 과학과 약간 다른 것으로 간주됩니다 특정 도메인에 특정 응용 프로그램을 포함시킵니다

또한 전통적인 연구가 있습니다 여기에는 수학이나 통계가 있으며 도메인 지식이 있습니다 종종 아주 집중적 인 도메인 지식이지만 코딩이나 프로그래밍이 필요 없습니다 이제, 당신은 도망 갈 수 있습니다 기존 연구에서 사용하는 데이터가 고도로 구조화되어 있기 때문에 그러한 점이 있습니다

행과 열로 제공되며 일반적으로 완료되며 일반적으로 분석 할 준비가됩니다 지금 당신은 엄청난 노력을해야하기 때문에 인생이 쉽다는 것을 의미하지는 않습니다 프로젝트의 설계 및 설계 및 데이터의 해석에 사용됩니다 그럼에도 불구하고 매우 무거운 지적인지 적 작업이지만 다른 곳에서 온다 그리고 마지막으로, 콘웨이가 "위험 지대"라고 부르는 것이 있습니다

그리고 그것은 교차점입니다 코딩 및 도메인 지식은 있지만 수학이나 통계는 필요하지 않습니다 이제 그는있을 법하지 않다고 말한다 일어날 수 있고, 그것은 사실 일 것입니다 다른 한편으로, 나는 몇 가지 일반적인 예를 생각할 수 있는데, 대형 문서 또는 일련의 문서를 가져 오는 "단어 수" 거기에 단어가 몇 번 나왔는지 계산해보십시오

그건 사실 알려줄 수 있어요 매우 중요한 것 또한지도를 그려 물건이 장소를 가로 질러 어떻게 변하는지를 보여줍니다 어쩌면 시간이 지날 수도 있습니다 당신은 반드시 수학을 가질 필요는 없지만, 그것은 매우 수 있습니다

통찰력 있고 도움이된다 그래서 사람들이 오는 몇 가지 배경에 대해 생각해 봅시다 여기에서 첫째, 코딩입니다 코더 인 사람들, 수학, 통계학을 할 수있는 사람들, 및 비즈니스

그래서, 당신은 세 가지를 얻습니다 (그리고 이것은 아마 가장 일반적입니다) 사람들은 프로그래밍 배경에서 왔습니다 다른 한편, 통계도 있습니다 통계 또한 코드를 작성하고 비즈니스를 수행 할 수있는 통계 전문가를 확보 할 수 있습니다

그다지 흔하지 않지만 일어난다 마지막으로 데이터에 참여하는 사람들이 있습니다 특정 영역의 과학 그리고 이것들은 예를 들어, 코드 및 할 번호 그리고 그들은 최소한의 공통점이 있습니다

그러나이 모든 것들은 데이터 과학 그리고 합하면, 우리가 빼앗을 수있는 것이 있습니다 첫째, 여러 필드가 up 데이터 과학 둘째, 다양한 기술과 배경이 중요하며 필요합니다 데이터 과학

셋째, 많은 역할이 있기 때문에 관련된 많은 역할이 있습니다 일어날 필요가있는 다른 것들 우리는 다음 영화에서 그것에 대해 더 많이 말할 것입니다 그만큼 데이터 과학 소개의 다음 단계와 데이터 과학의 정의는 이야기하는 것입니다 데이터 과학 통로에 관해

그래서 저는 이것을 당신이 일할 때 생각하고 싶습니다 주요 프로젝트에서, 당신은 한 번에 한 걸음 씩 여기에서 저기로 가야합니다 데이터 과학에서는 다양한 단계를 수행 할 수 있으며 두 단계로 구성 할 수 있습니다 일반 카테고리 첫째, 계획 수립과 관련된 단계가 있습니다

둘째, 데이터 준비 셋째, 실제 데이터 모델링이 있습니다 넷째, 후속 조치가 있습니다 그리고 이들 각각에는 몇 가지 단계가 있습니다 나는 그들 각각을 간단히 설명 할 것이다

먼저 계획에 대해 이야기 해 봅시다 먼저해야 할 일은 프로젝트의 목표를 정의하여 리소스를 잘 사용하는 방법을 알고 있어야합니다 당신은 언제 끝났는지 압니다 둘째, 리소스를 정리해야합니다 그래서 당신은 가질 수 있습니다

몇몇 다른 근원에서 자료; 당신은 다른 소프트웨어 꾸러미를 가지고 있을지도 모른다 다른 사람들이있어 세 번째로 우리를 데려다줍니다 사람들을 조정해야합니다 그래서 그들은 생산적으로 함께 일할 수 있습니다

손을 떼고 있다면 분명해야합니다 누가 무엇을 할 것이며, 어떻게 그들의 일이 함께 할 것인가 그리고 나서, 정말로 분명한 사실을 밝히기 위해서는 프로젝트가 원활하게 진행될 수 있도록 프로젝트 일정을 잡아야합니다 합리적인 시간 내에 끝낼 수 있습니다 다음은 데이터 준비입니다

음식 준비와 같이 먹고 원료 성분을 준비하는 것 물론 처음입니다 데이터를 가져와야합니다 그리고 그것은 많은 다른 출처에서 그리고 많은 다른 것 형식 슬프게도 데이터 정리가 필요합니다

이것은 매우 큰 경향이 있습니다 어떤 데이터 과학 프로젝트의 일부 그리고 그것은 당신이 비정상적인 데이터를 가져 오기 때문입니다 다른 장소에서 또한 데이터를 탐색하려고합니다

즉, 실제로 무엇이 보이는지 얼마나 많은 사람들이 각 그룹에 속해 있는지, 배포판의 모양 마치 무엇과 관련이 있는가? 데이터를 수정해야 할 수도 있습니다 그리고 그 포함 할 변수 선택, 포함 또는 제외 할 사례 선택, 변형 만들기 필요한 데이터로 이동하십시오 그리고 물론 이러한 단계는 앞뒤로 튀어 나올 수 있습니다 하나에서 다른 하나까지 세 번째 그룹은 모델링 또는 통계 모델링입니다

이것은 실제로 통계 모델을 만들고 싶습니다 예를 들어 회귀를 할 수 있습니다 분석을하거나 신경 네트워크를 할 수도 있습니다 하지만, 무엇을 하든지간에 모델을 검증하려면 모델을 검증해야합니다 당신은 홀드 아웃 밸리데이션으로 그렇게 할 수 있습니다

당신 가능한 경우 아주 작은 복제를 사용하여 실제로 그렇게 할 수 있습니다 또한 다음을 평가해야합니다 모델 따라서 모델이 정확하다는 것을 알게되면 모델이 실제로 무엇이며 어떻게 많이 알려주지? 그리고 마지막으로 모델을 수정해야합니다 예를 들어, 버리고 싶은 변수가있을 수 있습니다

어쩌면 당신이 포함하고 싶은 추가 항목 일 수도 있습니다 일부 데이터를 다시 변환 할 수도 있습니다 당신은 그것을 얻고 싶어 할지도 모른다 쉽게 해석하고 적용 할 수 있습니다 그리고 그것은 우리를 데이터 과학 통로의 마지막 부분으로 이끌어줍니다

그리고 그것은 후속 조치입니다 일단 모델을 만들면 모델을 제시해야합니다 그것은 일반적으로 클라이언트를 위해 수행되고있는 작업이기 때문에 집안에있을 수 있습니다 제 3 자 그러나 당신은 당신이 가진 통찰력을 가지고 의미있는 것을 공유해야합니다

다른 사람들과 방법 또한 모델을 배포해야합니다 그것은 보통 순서대로 행해지고있다 뭔가를 달성하기 위해 예를 들어, 전자 상거래 사이트로 작업하는 경우, 당신은 추천 엔진을 개발 중일 것입니다

이것을 살 수도 있습니다 "실제로 웹 사이트에 그것을 붙여야하고 그것이 작동하는지 확인해야합니다 네가 예상했던대로 그런 다음 모델을 다시 방문해야합니다 시간에 따라 작업 한 데이터가 반드시 모든 데이터가되는 것은 아닙니다

현실 세계에서 벗어나거나 시간이 지남에 따라 바뀌면 바뀝니다 그래서, 당신은 모델이 얼마나 잘 작동하는지 확인하십시오 그런 다음 철저히 조사하기 위해 보관해야합니다 자산, 보유하고있는 것을 문서화하고 귀하 또는 다른 사람들이 반복 할 수있게하십시오 미래의 분석 또는 개발

그래서, 그것들은 일반적인 단계입니다 데이터 과학 경로를 고려하십시오 요약하면, 우리가 이것으로부터 얻는 것은 세 가지입니다 첫째, 데이터 과학은 단순한 기술 분야가 아니라 코딩 일뿐입니다 같은 것들, 계획 및 발표 및 실행은 중요합니다

또한 문맥 기술, 특정 분야에서 어떻게 작동 하는지를 알고, 어떻게 구현 될 것인지를 안다 기술도 중요합니다 그리고이 모든 일에서 얻은 것처럼 많은 것들이 있습니다 해야 할 일 한 번에 한 단계 씩 나아가면 역 추적이 줄어들고 궁극적으로 데이터 과학 프로젝트에서 더 생산적 일 것입니다

우리는 계속할 것이다 데이터 과학에 관련된 역할을 살펴봄으로써 데이터 과학에 대한 우리의 정의 다른 사람들이 그것에 기여할 수있는 방법 공동 작업을하는 경향이 있기 때문입니다 우리 모두가 함께 있고, 함께 일하고 있다고 말할 수 있다는 것은 좋은 일입니다

하나의 목표 그럼, 데이터 과학에 관련된 몇 가지 역할과 그들은 프로젝트에 기여합니다 먼저 엔지니어를 살펴 보겠습니다 이것들은 백엔드 하드웨어에 집중하는 사람들 예를 들어, 서버 및 소프트웨어 그것들을 실행합니다

이것이 데이터 과학을 가능하게하는 요소이며, 개발자, 소프트웨어 개발자 또는 데이터베이스 관리자 그리고 나머지 부분을위한 기초를 제공합니다 일의 다음으로 Big Data 전문가 인 사용자를 보유 할 수도 있습니다 이들은 사람들이다

컴퓨터 과학 및 수학에 중점을두고 기계 학습 알고리즘을 수행 할 수 있습니다 매우 많은 양의 데이터를 처리하는 방법입니다 그리고 그들은 종종 불리는 것을 창조합니다 데이터 제품 그래서, 어떤 레스토랑에 가야할지 알려주거나, "너 이 친구를 알 수도 있습니다

"또는 사진을 링크하는 방법을 제공합니다 그것들은 데이터 제품, 그것들은 종종 그들 뒤에 아주 많은 양의 기술적 인 작업을 필요로합니다 또한있다 연구원; 이들은 도메인 특정 연구에 집중하는 사람들입니다 예를 들어, 물리학, 또는 유전학, 또는 뭐든간에 그리고이 사람들은 매우 강력한 통계를 가지고있는 경향이 있습니다

일부 절차와 일부 데이터를 다른 프로세스에서 사용할 수 있습니다 큰 데이터 연구자처럼 사람들은 특정 질문에 집중합니다 또한 데이터 과학 영역에서는 분석가를 찾을 수 있습니다 이들은 일상 생활에 집중하는 사람들입니다 사업 운영의 임무

예를 들어 웹 분석 (Google 애널리틱스와 같은), SQL 데이터베이스에서 데이터를 가져올 수도 있습니다 그리고이 정보는 매우 중요합니다 좋은 사업 따라서 분석가는 일상적인 업무 기능의 핵심이지만 실제로 데이터 과학이 적절하지 않을 수도 있습니다 왜냐하면 그들이 작업하는 대부분의 데이터가 정확하기 때문입니다 은 꽤 구조화 될 것입니다

그럼에도 불구하고, 그들은 일반적으로 비즈니스에서 중요한 역할을합니다 그런 다음 비즈니스에 대해 이야기합니다 당신은 실제 사업 사람들이 있습니다 남녀 누가 사업을 조직하고 운영하는지 이러한 사람들은 비즈니스 관련 프레임을 작성할 수 있어야합니다

데이터로 대답 할 수있는 질문 또한, 사업 담당자가 프로젝트를 관리합니다 그리고 다른 사람들의 노력과 자원 그리고 실제로는 그렇게하지 않을 수도 있습니다 코딩, 그들은 데이터를 말해야합니다; 데이터가 어떻게 작동하는지, 응답 할 수있는 것은 무엇인지, 그리고 그것을 구현하는 방법

당신은 또한 기업가를 가질 수 있습니다 따라서 데이터를 시작할 수 있습니다 그들은 자신의 작은 소셜 네트워크를 시작, 자신의 작은 웹 검색 플랫폼 기업가 데이터 및 비즈니스 기술이 필요합니다 그리고 사실, 그들은 모든 단계에서 창조적이어야합니다

그 길 보통 그들은 더 작은 규모로 모든 일을하고 있기 때문입니다 그럼 우리는 데이터 과학에서 "전체 스택 유니콘 (full stack unicorn)"이라고 알려진 것을 가지고 있습니다 그리고 이것은 사람입니다 누가 전문가 수준에서 모든 것을 할 수 있는지

그들은 진실되게 유니콘이라 불리며, 그들은 실제로 존재하지 않을 수도 있습니다 나는 나중에 그것에 대해 더 말할 것입니다 그러나 지금 당장은, 우리는이 비디오에서 우리가 얻은 것을 세 가지로 요약 할 수 있습니다 1 위, 데이터 과학 다양합니다 거기에 들어가는 많은 사람들이 있고, 그들은 다른 목표를 가지고 있습니다

그들의 일을 위해, 그리고 그들은 다른 기술과 다른 경험을 가져오고 다른 구혼 또한, 그들은 매우 다른 맥락에서 일하는 경향이 있습니다 기업가가 일한다 아주 다른 곳에서 일하는 비즈니스 관리자와는 아주 다른 곳에서 학자 연구원에게서 그러나 이들 모두는 데이터 과학에 어떤 식 으로든 연결되어 있습니다

그리고 그것을 더 부유 한 분야로 만드십시오 "데이터 과학 : 소개"에서 내가 말하고 싶은 마지막 사항 데이터 과학을 정의하려고 할 때, 데이터 과학 팀을 이야기하는 것입니다 그만큼 여기서 아이디어는 데이터 과학이 다양한 도구를 가지고 있으며 다른 사람들이 될 것이라는 것입니다 각자의 전문가 자, 예를 들어 코딩을하고 통계를 얻었습니다

또한 디자인, 사업 또는 경영과 관련된 것으로 느껴질 수 있습니다 그리고 질문은 물론입니다 : "누가 그것을 할 수 있습니까? 누가이 모든 것을 할 수 있습니까? 우리가 필요로하는 수준의 것들? "글쎄, 그것이 우리가이 말을하는 곳이다 (나는 언급했다 그 전에는) 유니콘이에요 고대 역사와 마찬가지로 유니콘은 신화적인 존재입니다 마법의 능력을 가진 생물

데이터 과학에서, 그것은 조금 다르게 작동합니다 신화 적이다 보편적 인 능력을 가진 데이터 과학자 문제는 현실 세계에서 알 수 있듯이, 실제로 유니콘 (동물)이 없으며 실제로는 유니콘이별로 없습니다 데이터 과학

실제로, 사람들이 있습니다 그래서 우리는 우리가 어떻게 할 수 있는지 알아야합니다 비록 우리 모두를 위해 모든 것을 할 수있는 한 사람이 없더라도 프로젝트가 진행됩니다 잠시 동안 가상의 경우를 생각해 봅시다 내가 허구로 너를 줄거야

사람들 여기 내 허구의 사람 오토가 강한 시각화 기술을 가지고 있으며 좋은 코딩이지만, 분석적 또는 통계적 능력이 제한적이다 그리고 그의 물건을 그래프로 표현하면 능력 그래서 여기에 우리가해야 할 다섯 가지 일이 있습니다 그리고 프로젝트를 위해 작동하려면 최소한 0에서 10까지 8 단계가 필요합니다 우리가 그의 코딩 능력을 취하면 거의 다 왔어 통계, 중간 정도는 아닙니다 그래픽, 예 그는 그렇게 할 수 있습니다

그리고 나서, 사업, 어, 괜찮아 그리고 프로젝트, 꽤 좋아 그래서, 당신은 할 수 있어요 여기에서 볼 수 있듯이,이 다섯 가지 영역 중 단 하나만이 오토만으로 충분합니다 다른쪽에 손, 그 사람을 다른 사람과 짝 지어 ​​봅시다

루시를 살펴 봅시다 그리고 루시는 강합니다 비즈니스 교육, 좋은 기술을 가지고 있지만 그래픽이 제한되어 있습니다 그리고 우리가 그녀의 프로파일을 얻으면 우리가 보았던 것과 똑같은, 코딩이 있습니다, 꽤 좋습니다 꽤 좋은 통계

제도법, 별로 잘 했어 그리고 프로젝트 여기 중요한 건 우리는 팀을 만들 수 있습니다 Otto와 Lucy라는 두 명의 가상의 사람들을 생각해 봅시다

그들의 능력을 종합하자 자, 사실 여기서 스케일을 조금 변경해야합니다 둘 다 수용 할 수 있습니다 그러나 우리의 기준은 여전히 ​​8 점입니다 우리는 8 레벨이 필요하다

프로젝트를 유능하게하기 위해서 그리고 우리가 그들을 결합한다면 : 아, 이제 코딩은 지난 8 년 통계는 8 년이 넘었습니다 그래픽 방식은 과거입니다 비즈니스 방식 과거

그리고 나서 프로젝트, 그들은 너무 그래서 우리가 그들의 기술을 결합 할 때, 우리는 레벨을 얻을 수 있습니다 우리는 모든 것을 위해 필요합니다 다른 말로하면, 우리는 이제 유니콘을 만들었습니다 팀에 의해 데이터 과학 프로젝트를 수행 할 수 있습니다

그래서, 요약하면 : 당신 일반적으로 독자적으로 데이터 과학을 할 수는 없습니다 그것은 매우 드문 개인입니다 또는 구체적으로 : 사람들은 사람들을 필요로하며, 데이터 과학에서는 여러 사람들을 집단 유니콘을 만들어 프로젝트에서 필요한 통찰력을 얻을 수 있습니다 그리고 당신은 당신이 원하는 것을 다 할 수 있습니다 더 나은 이해를 얻으려면 데이터 과학의 경우에는 데이터 과학과 다른 분야의 대조를 살펴 보는 것이 도움이 될 수 있습니다

빅 데이터의 경우 가장 유익한 정보는 실제로이 두 용어가 종종 혼란 스럽다 그것은 내가 비슷한 상황에 대해 생각하게합니다 그러나 동일하지 않습니다 이탈리아의 산 카를로 (San Carlo) 피아자 장소에 있습니다 의 일부 문제는 데이터 과학과 빅 데이터 모두가 벤 다이어그램과 관련되어 있다는 사실에서 유래합니다 그들과 함께

예를 들어 Venn은 데이터 과학 분야에서 우리가 본 것입니다 이미 우리는 세 개의 원을 가지고 있고 코딩이되어 있으며 수학이 있으며 도메인이 있습니다 전문 지식, 함께 데이터 과학 반면에 벤 다이어그램 2 번 빅 데이터 용입니다

또한 세 개의 원이 있습니다 그리고 우리는 많은 양의 데이터와 빠른 데이터를 가지고 있습니다 데이터 속도 및 다양한 데이터를 제공합니다 그 3 개의 v를 함께 가져라 당신은 빅 데이터를 얻습니다

이제 세 번째 Venn Diagram에서 원한다면이 둘을 결합 할 수 있습니다 빅 데이터 (Big Data and Data Science)라고 부릅니다 이번에는 단지 두 개의 원입니다 빅 데이터로 왼쪽에는 데이터 과학이, 오른쪽에는 데이터 과학이 있습니다 그리고 중간에 교차로, 빅 데이터가 있습니다

과학, 실제로는 진짜 용어입니다 그러나 비교와 대비를 원한다면, 당신이 다른 사람없이 하나를 가질 수있는 방법을 보는 것이 도움이됩니다 자, 시작하자 데이터 과학없이 빅 데이터를 살펴 봅니다 그래서, 이것들은 여러분이 가질 수있는 상황입니다

볼륨 또는 속도 또는 다양한 데이터가 있지만 데이터 과학의 모든 도구가 필요하지는 않습니다 그래서 방정식의 왼쪽을보고 있습니다 자, 진실하게,이 3 개의 V가 모두없는 큰 데이터가있는 경우에만 작동합니다 어떤 사람들은 당신이 책을 가지고 있어야한다고 말한다 속도 및 다양성을 Big Data로 계산합니다

나는 기본적으로 말하지 않는 것을 말한다 아마도 표준 데이터베이스는 Big Data 일 것입니다 몇 가지 예를 생각해 볼 수 있습니다 빅 데이터 (Big Data)로 간주 될 수있는 것들에 대해서는 여기에 있지만 데이터 과학으로 간주되지는 않습니다 기계 매우 큰 데이터 세트를 가질 수 있고 매우 복잡 할 수도있는 곳에서 대단히 도메인 전문성이있어 데이터 과학이 아닐 수도 있습니다

당신이 가지고있는 단어 카운트 엄청난 양의 데이터와 실제로는 매우 간단한 분석이므로 다시는 필요하지 않습니다 양적 기술이나 도메인 전문성 측면에서 훨씬 정교합니다 어쩌면 / 아마도 데이터 과학이 아닙니다 다른 한편으로, 이들 중 어떤 것을하기 위해서 당신은 적어도 두 가지 기술 코딩이 필요할 것입니다

일종의 양적 기술을 보유하고 있습니다 그렇다면 빅이없는 데이터 과학은 어떨까요? 데이터? 그것이이 다이어그램의 오른쪽입니다 글쎄, 당신이 아마 일어날 수 있도록 Big Data의 세 가지 V 중 하나만 사용하여 데이터에 대해 이야기합니다 따라서 볼륨 또는 속도 또는 다양성, 그러나 단 하나 그래서 예를 들어, 유전학 데이터

엄청난 양의 데이터가 있습니다 매우 세팅 된 구조로되어 있으며 한 번에 들어올 수 있습니다 그래서, 당신은 많은 것을 가지고 있습니다 볼륨과 함께 작업하는 것은 매우 어려운 일입니다 당신은 데이터 과학, 빅 데이터로 간주 될 수도 있고 그렇지 않을 수도 있습니다

마찬가지로 데이터가있는 스트리밍 센서 데이터 매우 빨리 들어오지 만 반드시 저장하는 것은 아닙니다 너는이 창들을보고있다 그 안에 속도가 너무 빠르며 다루기가 어렵고 데이터를 필요로합니다 과학, 전체 기술 집합이지만 Big Data 자체는 필요하지 않을 수 있습니다

또는 얼굴 인식, 당신은 사진이나 비디오를 가져 오기 때문에 데이터가 엄청나게 다양합니다 다시 들어 오기가 어렵고, 독창성과 독창성이 많이 필요합니다 당신이 정의에 얼마나 많은 영향을 미치는지에 따라 Big Data로 간주 될 수도 있고 그렇지 않을 수도 있습니다 자, 두 가지를 결합하고 싶다면 Big Data Science에 대해서 이야기 할 수 있습니다 이 경우, 우리는 바로 여기에서 찾고 있습니다

이것은 볼륨이있는 상황입니다 속도 및 다양성을 제공하고 진실하게, 만약 당신이 그 중 3 개가 있다면, 당신은 가고 있습니다 전체 데이터 과학 기술 세트가 필요합니다 당신은 코딩과 통계가 필요할 것입니다 그리고 수학, 그리고 당신은 도메인 전문 지식을 가지고 있어야합니다

주로 당신이 다루는 다양성, 그러나 모두 함께 가져 가면 모든 것을 가질 수 있습니다 그래서 요약하면, 여기에 우리가 얻는 것이 있습니다 빅 데이터는 데이터 과학과 동일하지 않습니다 이제는 공통점이 있으며 빅 데이터를 잘 다루는 많은 사람들이 잘하고 있습니다 데이터 과학 및 그 반대로, 개념적으로 구별됩니다

한편, 두 개의 개별 분야를 통합하는 빅 데이터 사이언스의 공통된 중점이 있습니다 데이터 과학을 이해하려고 시도 할 때 또 다른 중요한 차이점은 그것은 코딩 또는 컴퓨터 프로그래밍과 함께 자,이 곳에서 당신과 함께 일하려고합니다 기계와 당신은 그 기계와 대화하려고 노력하고 있습니다 어떤 의미에서 코딩은 작업 지시 사항을 제공하는 것으로 생각할 수 있습니다

어떻게하는지 이것은 요리 할 때 조리법을 좋아하십시오 일종의 사용자 입력이나 다른 입력을받습니다 그리고 아마도 if / then 로직을 가지고있을 것이고, 당신은 그것으로부터 출력을 얻을 것입니다 극단적으로 취하기 간단한 예를 들어, Python 버전 2로 프로그래밍하고 있다면, 다음과 같이 쓴다 : print, 그리고 나서 따옴표 안에 "안녕, 세상!" "Hello, world!"라는 단어를 넣을 것입니다

화면에 그래서, 당신은 그것은 약간의 지시와 당신에게 약간의 출력을 줬다 아주 간단한 프로그래밍 자, 코딩 데이터가 좀 더 복잡해집니다 예를 들어, 단어 수가 있습니다

너는 책이나 책 전체를 가져 가면, 너는 그 말을 듣고 너는 몇 권을 셀까? 거기에있다 이제 개념적으로 간단한 작업이며 도메인 전문 지식과 실제로 수학 및 통계는 중요하지 않습니다 그러나 유효한 추론과 일반화를 만들기 위해서 데이터의 변동성과 불확실성에 직면하여 통계가 필요하며, 데이터 과학이 필요합니다 두 도구를 비교하는 데 도움이 될 수 있습니다 거래

예를 들어 코딩이나 일반적인 컴퓨터 프로그래밍을위한 도구가 있습니다 데이터 과학을위한 도구가 있습니다 제가 여기있는 것은 목록입니다 IEEE의 상위 10 개 프로그래밍 언어 2015 년 그리고 그것은 자바와 C에서 시작하고 간다

쉘까지 내려 갔다 그리고 이들 중 일부는 데이터 과학에도 사용됩니다 그래서 예를 들어, 파이썬 R과 SQL은 데이터 과학에 사용되지만 다른 것들은 데이터 과학에서 중요하지 않습니다 실제로 데이터 과학에서 가장 많이 사용되는 도구 목록을 살펴 보겠습니다 그리고 그 것들이 조금씩 움직이는 것을 볼 수 있습니다

자, R이 맨 위에 있고, SQL이 있고, 파이썬이있다 거기에 있지만, 저에게 가장 흥미로운 것은 Excel이 5 위라는 것입니다 그 자체로 프로그래밍으로 간주되지는 않을 것이지만 실제로는 매우 중요합니다 데이터 과학을위한 도구 그리고 그것이 우리가 비교하고 비교할 수있는 방법 중 하나입니다 데이터 과학을 이용한 컴퓨터 프로그래밍

요약하면, 우리는 이것을 말할 수 있습니다 : 데이터 과학은 코딩과 동일합니다 그것들은 다른 것들입니다 다른 한편으로는, 그들은 도구를 사용하고 데이터를 코딩 할 때 특히 관행을 공유합니다 반면에, 거기 그 통계에서 하나의 매우 큰 차이입니다, 통계 능력은 주요 구분 기호 중 하나입니다 범용 프로그래밍과 데이터 사이언스 프로그래밍 우리가 데이터에 관해 말할 때 과학과 우리는 일부 분야, 많은 사람들이 혼란스러워하는 또 다른 분야와 대조합니다 그들은 데이터 과학 및 통계와 같은 것이라고 생각합니다 자, 내가 너에게 말할거야

공통점은 많이 있지만, 우리는 서로 다른 초점에 대해 조금 이야기 할 수 있습니다 마다 그리고 우리는 또한 데이터 과학이 다른 정의 론적 문제에 빠지게됩니다 왜냐하면 우리는 둘 사이에 공통점이있을지라도 다르게 정의하십시오 그것 각 분야에서 진행되는 일들 중 일부를 살펴 보는 데 도움이됩니다

자, 시작하겠습니다 여기 통계에 대해서 여기에 작은 원을 넣으면 데이터 과학을 넣을 것입니다 그리고, ~에 스티븐 제이 굴드 (Steven J Gould)의 용어를 빌리 자

수암 그래서 여러분은 그것들을 별개의 것으로 생각합니다 서로 할 수 있습니다 하지만 알다시피, 그것은 옳지 않은 것처럼 보입니다 그 중 일부는 데이터 과학 다이어 다이어그램으로 돌아 가면 통계도 그 중 하나입니다

거기는 상단 구석에 이제 우리는 무엇을해야합니까? 그 관계가 뭐야? 그래서, 이들은 완전히 별개의 영역이라고 할 수 있습니다 아마도 데이터 과학 및 통계 일 수 있습니다 그들은 절차를 공유합니다 어쩌면 데이터 과학은 통계의 하위 집합이나 전문 분야 일 것입니다

이런 식으로 그러나 데이터 과학이 통계 내의 일부 또는 전문 분야 일 경우 모든 데이터 과학자가 먼저 통계 학자가 될 것이라고합니다 그리고 흥미롭게도 그것은 그렇게 중요하지 않습니다 예를 들어, 우리는 데이터 과학 별, 현장의 슈퍼 스타 우리는 다소 협박적인 기사를 보게됩니다

그것은 "The World 's 포브스 닷컴 (Forbescom)의 '가장 강력한 데이터 과학자 7 명'이 기사를 볼 수 있습니다 URL 실제로 7 명 이상이 있습니다 때로는 한 쌍으로 그들을 데려 오기 때문입니다

학위를 확인하고 학업 훈련 내용을 확인해 봅시다 이 목록에있는 사람들은 컴퓨터 과학에서 5도, 수학에서 3도, 수학에서 2 공학, 그리고 생물학, 경제학, 법학, 언어학 및 통계학에서 각각 한 명씩 물론 데이터 과학 분야의 이러한 주요 인물은 다음과 같은 교육을받지 못했습니다 통계 학자 그들 중 한 명만 공식 훈련을 받았습니다

그래서, 그것은 우리를 다음 질문 이 두 분야, 통계 및 데이터 과학은 어디에서 다른가? 때문에 그들은 그들이 공통점이 많이 있어야하는 것처럼 보이지만, 훈련을 많이하지는 않습니다 구체적으로는, 우리는 훈련을 볼 수 있습니다 대부분의 데이터 과학자들은 정식으로 통계학 자로 훈련받지 못했습니다 또한 실제적으로 데이터 학습의 핵심 인 기계 학습 및 빅 데이터와 같은 것들은, 일반적으로 대부분의 통계와 공유되지 않습니다

그래서, 그들은 거기에 별도의 도메인을 가지고 있습니다 과 문맥의 중요한 문제가있다 데이터 과학자들은 다른 곳에서 일하는 경향이 있습니다 통계학 자보다 특히, 데이터 과학자들은 상업적으로 매우 자주 일합니다 권장 엔진을 얻으려는 설정 또는 제품을 개발하는 방법 돈을 벌어 줄거야

따라서 데이터 과학을 통계의 하위 집합으로 보는 대신, 우리는이 두 분야가 다른 틈새를 가지고 있기 때문에 더 많이 생각할 수 있습니다 그들은 모두 데이터를 분석하고, 그러나 그들은 다른 방식으로 다른 일을합니다 그래서, 그들이 공유하고 있다고 말하는 것은 공정 할 수 있습니다 그것들은 겹치고, 그들은 공통적으로 데이터를 분석하지만, 그렇지 않으면 생태 학적으로 뚜렷한 그래서, 요약하면 : 여기서 우리가 말할 수있는 것은 데이터 과학과 통계 모두 사용한다는 것입니다 데이터를 분석하고 분석합니다

그러나 각각의 사람들은 서로 다른 배경을 가진 경향이 있습니다 그들은 서로 다른 목표와 맥락으로 기능하는 경향이 있습니다 그리고 그런 식으로 명백한 중첩에도 불구하고 개념적으로 뚜렷한 필드가된다 우리가 데이터 과학을 이해하고, 내가 명시 적으로하고 싶은 또 하나의 대조가 있습니다 데이터 과학 및 비즈니스 인텔리전스 또는 BI 여기에있는 아이디어는 비즈니스 인텔리전스 실생활에서의 데이터입니다

그것은 매우 적용된 물건입니다 BI의 목적은 데이터를 가져 오는 것입니다 내부 운영, 시장 경쟁자 등에 대한 결정을 내리고 정당한 결정을 내립니다 바에 앉아서 마음을 움직이는 것과는 대조적입니다 자, 데이터 과학은 BI에 코딩이 없다는 것을 제외하고는 이와 관련되어 있습니다

저기있다 이미 존재하는 앱을 사용합니다 비즈니스 인텔리전스 통계는 매우 단순한 경향이 있습니다 그들은 수와 백분율 및 비율이되는 경향이 있습니다 그리고 그것은 간단합니다, 전구 간단하다; 그것의 한가지 일은 거기에 초 정교한 것은 아무것도 없습니다

대신 비즈니스 인텔리전스의 초점은 도메인 전문 지식과 실제로 유용한 직접 유틸리티에 있습니다 간단하고 효과적이며 통찰력을 제공합니다 자, 주요 협회 중 하나 비즈니스 인텔리전스는 대시 보드 또는 데이터 대시 보드라고합니다 그들은 본다 이런 식으로 그것은 당신에게 매우 감동적인 차트와 테이블 모음입니다

귀하의 비즈니스에서 진행되고있는 일에 대한 간략한 개요 그리고 많은 데이터 과학자들 말하자면 대시 보드 위에서 코를 내려다 보겠습니다 나는 이것들을 말할 것입니다 매우 잘 설계되었으며 사용자 상호 작용 및 접근성에 대해 많은 것을 배울 수 있습니다 대시 보드의 정보

그렇다면 실제로 데이터 과학은 어디로 들어 옵니까? 무엇입니까 데이터 과학과 비즈니스 인텔리전스 사이의 연결? 음, 데이터 과학은 유용 할 수 있습니다 BI를 설정하는 측면에서 데이터 소스 식별 및 생성 또는 설정 대시 보드 또는 비즈니스 인텔리전스 시스템과 같은 프레임 워크 또한, 데이터 과학은 그것을 확장하는 데 사용될 수 있습니다 데이터 과학을 사용하여 쉬운 질문을 피할 수 있습니다

실제로 가장 유용한 질문을 얻으려면 쉬운 데이터를 사용하십시오 그들은 정말 때로는 다루기가 힘든 데이터가 필요합니다 그리고 또한, 거기 다른 방향으로가는 흥미로운 상호 작용입니다 데이터 과학 실무자 좋은 비즈니스 인텔리전스 애플리케이션에서 디자인에 대해 많은 것을 배울 수 있습니다 그래서, 나는 강하게 데이터 과학자 중 누구라도 신중하게보고 자신이 배울 수있는 것을 볼 수 있도록 격려하십시오

요약하면 비즈니스 인텔리전스 또는 BI는 매우 목표 지향적입니다 데이터 과학은 아마도 그것을 준비한다 데이터 및 비즈니스 인텔리 전스에 대한 양식을 설정뿐만 아니라 데이터 과학은 비즈니스 인텔리전스에서 유용성과 접근성에 대해 많이 알고 있습니다 그리고 항상 그렇습니다 가까이서 볼만한 가치가 있습니다

데이터 과학은 그것에 대해 정말 멋진 것들을 많이 가지고 있지만 윤리적 인 문제를 고려하는 것이 중요하며이를 구체적으로 '해를 끼치 지 마십시오'라고합니다 데이터 과학 프로젝트에 그리고 우리는 Hippocrates 덕분에 그 사람을 말할 수 있습니다 누가 우리에게 해를 끼치 지 않는 히포크라테스의 선서를 우리에게주었습니다 구체적으로 데이터 과학에서 제기되는 중요한 윤리적 문제는 매우 간단합니다 번호 하나는 은둔

이 데이터는 사람들에 대해 많이 알려주고 기밀성에 대해 염려해야합니다 사람들에 대한 개인 정보, 이름, 사회 보장 번호, 그들의 주소, 그들의 신용 점수, 그들의 건강, 사적인 것, 기밀의 것, 귀하가 특별히 허락하지 않는 한 그 정보를 공유해서는 안됩니다 지금, 이것이 데이터 과학에있어 특별한 도전이되는 이유 중 하나입니다 나중에 보아라 데이터 과학에서 사용되는 많은 소스는 공유를 목적으로하지 않았다

웹 사이트 또는 PDF에서 데이터를 다쳤 으면 확인해야합니다 하기 위해서 그러나 원래 공유 의도없이 생성되었으므로 프라이버시가 보장됩니다 분석가가 실제로 제대로하고 있는지 확인하기 위해 정말로 쓰이는 것입니다 다음 것, 익명입니다

우리가 발견 한 흥미로운 것 중 하나는 식별하기가 어렵지 않다는 것입니다 데이터에있는 사람들 GPS 데이터가 약간 있고 사람이 어디에 있는지 알면 4 가지 시점에서, 당신은 그들이 누구인지를 정확히 알 수있는 확률이 약 95 %입니다 당신은 HIPAA와 같은 것을 보았습니다 그것은 건강 보험 이식성과 책임 성입니다

행위 HIPAA 이전에는 의료 기록으로 사람들을 식별하는 것이 정말 쉬웠습니다 그 이후로 사람들을 고유하게 식별하기가 훨씬 더 어려워졌습니다 그게 중요한거야 정말로 사람들의 행복을 위해서

또한 독점 데이터도 마찬가지입니다 당신이 클라이언트, 회사, 그리고 그들은 당신에게 자신의 데이터를 제공합니다 그 데이터에는 식별자가있을 수 있습니다 당신은 사람들이 누구인지 알 수 있습니다, 그들은 더 이상 익명이 아닙니다 따라서 익명 성 또는 데이터를 익명으로 만들기위한 주요 노력이 없을 수도 있습니다

하지만 정말로, 주요한 것은 비록 그들이 누구인지 알면서도, 당신은 여전히 ​​프라이버시와 비밀 유지를 유지합니다 데이터의 다음으로 사람들이 정보를 잠그려고하는 저작권 문제가 있습니다 자, 뭔가가 웹상에 있다고해서 그것이 당신이 그것을 사용할 수 있다는 것을 의미하지는 않습니다 웹 사이트의 데이터 스크랩은 프로젝트의 데이터를 가져 오는 가장 보편적이며 유용한 방법입니다 웹 페이지, PDF, 이미지, 오디오, 정말 거대한 데이터를 얻을 수 있습니다

사물의 수 그러나 웹에 있기 때문에 다시 가정 할 수 있습니다 그것을 사용하는 것은 사실이 아닙니다 항상 저작권을 확인하고 받아 들일 수 있는지 확인해야합니다 특정 데이터에 액세스 할 수 있습니다

다음으로, 우리의 매우 불길한 그림은 데이터 보안입니다 여기서 아이디어는 데이터를 수집하고 정리하기 위해 모든 노력을 다할 때 분석을 위해 준비하면 많은 것을 만들면서 매우 가치있는 것을 만들어 냈습니다 사람들은 데이터를 훔치려 고 해킹하려는 해커에 대해 염려해야합니다 특히 데이터가 익명이 아니며 식별자가 포함되어있는 경우 그리고 거기에 분석가가 자신의 능력을 최대한 발휘할 수 있도록하는 추가 부담 데이터는 안전하며 깨지거나 도난 당할 수 없습니다

그리고 그것은 매우 단순한 것을 포함 할 수 있습니다 자신의 프로젝트에 있지만 더 이상은 아니지만 플래시에서 데이터를 가져온 사람과 같은 것 드라이브 그렇게 할 수없는 방법을 찾아야합니다 거기에 많은 가능성이 있지만 까다 롭지 만 철저히 고려해야 할 사항입니다 자, 윤리 측면에서 두 가지가 나오지만 대개는 다루지 않습니다

이 대화에서 1 위는 잠재적 편견입니다 여기에있는 아이디어는 알고리즘 또는 데이터 과학에서 사용되는 수식은 중립적이거나 규칙과 같이 편견이 없습니다 그리고 그들이 얻은 데이터 그래서, 여기에있는 생각은 여러분이 규칙을 다룰 때 예를 들어 성별, 나이, 인종 또는 경제적 지위와 관련된 것, 의도하지 않게 이러한 요소들을 만들 수 있습니다

예를 들어, 9 번 타이틀, 당신은하지 않아도됩니다 당신은 시스템에 설치하지 않고 그것을 알고 있고, 알고리즘은 객관성의 광채를 가지고 있으며 사람들은 일부 편견을 모방하고 있다는 것을 깨닫지 않고도 확신을 가질 수 있습니다 실생활에서 일어날 수 있습니다 또 다른 문제는 과신이다 그리고 여기 아이디어는 분석은 제한된 단순화입니다

그들은 있어야합니다 과 이 때문에, 당신은 여전히 ​​이것을 해석하고 적용하는데 도움이되는 반복문 속에 인간이 필요합니다 문제는 사람들이 소수점 이하 10 자리까지 숫자를 얻기 위해 알고리즘을 실행하면, 그리고 그들은 "이것이 사실 일 것임에 틀림 없다"고 말하면서 그것을 돌이킬 수없는 돌이킬 수없는 것으로 취급한다 진실, 사실, 데이터가 편향된 경우; 알고리즘이 불완전한 경우, 샘플링이 대표성이 없다면 엄청난 문제가 발생할 수 있습니다 자신의 분석에 너무 많은 자신감을 가지고 잘못된 경로

그래서, 다시 한번 겸손이 있습니다 데이터 과학 작업을 할 때 주문하십시오 요약하면 데이터 과학은 엄청난 잠재력을 가지고 있지만 또한 프로젝트에 상당한 위험이 있습니다 문제의 일부는 분석입니다 중립적 일 수는 없으므로 알고리즘과 알고리즘이 어떻게 연관되어 있는지 살펴 봐야합니다

선호도, 편견, 편견 등이있다 그리고 그게 무슨 뜻인지 데이터 과학의 품질과 성공을 위해서는 무엇보다 좋은 판단이 항상 중요합니다 계획 데이터 과학은 그 방법이나 절차와 밀접하게 관련된 분야입니다 이 동영상 섹션에서는 다음과 같은 방법에 대한 간략한 개요를 제공합니다

데이터 과학에 사용됩니다 이제는 빠른 경고처럼이 섹션에서 일이 친절해질 수 있습니다 어떤 사람들은 괴물이 될 수 있습니다 하지만이 코스는 기술적이지 않은 개관 물건에 대한 기술적 인 손은 다른 코스에 있습니다

그리고 그건 기술이 단순히 데이터 과학을 수행하는 수단임을 기억하는 것이 정말로 중요합니다 통찰력 또는 데이터에서 의미를 찾을 수있는 능력 등이 그 목표입니다 Tech는 귀하가 그곳으로 가는데 도움이됩니다 따라서 우리는 주로 통찰력과 도구 및 기술에 중점을두고 자합니다 그 목표

이제 몇 가지 일반적인 카테고리를 살펴 보겠습니다 각각에 대한 개요가 나와 있습니다 첫 번째는 소싱 또는 데이터 소싱입니다 그건 당신이 필요로하는 원료 인 데이터 과학에 들어가는 데이터를 얻는 방법 둘째는 코딩

다시 말하지만, 컴퓨터 프로그래밍을 사용하여이를 얻고 조작 할 수 있습니다 데이터를 분석합니다 그 후, 수학의 작은 비트와 그 뒤에 수학입니다 데이터 과학 방법은 실제로 절차의 기초를 형성합니다 그리고 통계, 특히 데이터를 요약하고 분석하는 데 자주 사용되는 통계 방법 데이터 과학에 적용됩니다 그리고 기계 학습이 있습니다, ML, 이것은 컬렉션입니다

흥미있는 범주 또는 점수를 예측하기 위해 데이터에서 클러스터를 찾는 방법 결과 심지어이 다섯 가지 요소를 넘어서조차도, 프레젠테이션은 너무 기술적이지 않습니다 그들은 기본적으로 여전히 친절합니다 정말, 그것이 그 길입니다 그래서 개요입니다

개관의 요약하면 : 우리는 데이터 과학이 기술을 포함하지만 데이터 과학은 기술보다 큽니다 그것은 그 절차 이상의 것입니다 그리고 무엇보다도, 그 기술 데이터 과학에서 중요한 것은 여전히 ​​단순히 데이터를 통찰하는 수단 일뿐입니다 첫 번째 단계 데이터 과학 방법을 논의 할 때 소싱 또는 데이터 가져 오기 방법을 살펴 보는 것이 데이터 과학에 사용됩니다

이것을 원료를 얻는 것으로 생각할 수 있습니다 당신의 분석에 들어가십시오 자, 당신은 이것에 관해서 몇 가지 다른 선택을해야합니다 데이터 과학 기존 데이터를 사용할 수 있으며 데이터 API라는 것을 사용할 수 있습니다

웹 데이터를 스크랩하거나 데이터를 만들 수 있습니다 우리는 그 각각에 대해 아주 간단히 이야기 할 것입니다 기술적이지 않은 방식으로 지금 당장은 기존 데이터에 대해 이야기하겠습니다 이것은 이미 보유하고있는 데이터이며 사내 데이터 일 수 있습니다 그래서 당신이 일하면 회사, 귀하의 회사 기록 일 수 있습니다

또는 공개 된 데이터가있을 수 있습니다 예를 들어, 많은 정부와 많은 과학 단체들이 그들의 데이터를 대중에게 공개한다 과 그러면 제 3 자 데이터도 있습니다 이것은 일반적으로 공급 업체에서 구입하는 데이터이며, 하지만 그것은 존재하고 그것은 매우 쉽게 연결하고 갈 수 있습니다 API를 사용할 수도 있습니다

지금, 이것은 Application Programming Interface의 약자로, 컴퓨터 응용 프로그램은 서로 직접 통신 할 수 있습니다 그것은 당신의 전화와 같습니다 컴퓨터 프로그램 웹 데이터를 가져 오는 가장 일반적인 방법이며, 아름다운 것입니다 당신이 그 데이터를 어떤 프로그램이나 응용 프로그램으로 직접 가져올 수 있는지에 대한 것입니다

당신은 데이터를 분석하는 데 사용하고 있습니다 다음은 데이터 스크래핑입니다 그리고 이것은 당신이 원하는 곳입니다 웹에있는 데이터를 사용하지만 기존 API가 없습니다 그게 무슨 뜻인지, 일반적으로 HTML 웹 테이블과 페이지, 아마도 PDF에있는 데이터입니다

그리고 당신은 이것을 할 수 있습니다 특수 응용 프로그램을 사용하여 데이터를 스크래핑하거나 프로그래밍에서 수행 할 수 있습니다 R 또는 Python과 같은 언어를 사용하고 데이터 스크래핑을 수행하는 코드를 작성하십시오 또는 다른 옵션 데이터를 만드는 것입니다 그리고 이것은 당신이 당신이 필요로하는 것을 정확하게 얻을 수있게합니다; 당신은 매우 구체적 일 수 있습니다

당신은 필요한 것을 얻을 수 있습니다 인터뷰와 같은 일을하거나 설문 조사를 할 수 있습니다 당신은 실험을 할 수 있습니다 많은 접근 방식이 있으며, 대부분은 전문적인 접근 방식을 필요로합니다 품질 데이터 수집 방법에 관한 교육 그리고 그것은 실제로 기억하는 것이 중요합니다

새 데이터를 가져 오거나 만들 때 어떤 방법을 사용하든 관계없이 컴퓨터 과학에서 들었을지도 모르는 작은 격언 그것은 이름으로 간다 GIGO : 실제로는 "쓰레기통, 쓰레기통"을 의미하며, 당신이 당신의 시스템에 공급하는 나쁜 데이터, 당신은 가치있는 것을 얻지 못할 것입니다 그것에서 어떤 진짜 통찰력 따라서 측정 항목에주의를 기울이는 것이 중요합니다

또는 측정 방법 및 의미 – 정확하게 그들이 말하는 것입니다 몇 가지가있다 네가 할 수있는 방법 예를 들어 비즈니스 메트릭에 대해 이야기하고 대화를 나눌 수 있습니다 핵심 성과 지표 (KPI)를 의미하는 KPI에 대해서도 비즈니스 환경에서 사용됩니다

또는 스마트 목표, 이는 실용적이고시기 적절한 목표를 설명하는 방법입니다 너는 할 수있다 측정의 의미에서 분류 정확도에 대해서도 이야기합니다 그리고 나는 그것들 각각에 대해 토론 할 것이다 나중에 영화에서 좀 더 자세히 설명합니다

그러나 지금 당장은 총계로 다음과 같이 말할 수 있습니다 데이터 소싱은 분석을위한 원자재를 얻어야하기 때문에 중요합니다 좋은 점은 여러 가지 가능한 방법이 있다는 것입니다 데이터를 가져 오는 데 사용할 수있는 여러 가지 방법이 있습니다 데이터 과학

그러나 당신이 무엇을 하든지간에 품질과 품질을 점검하는 것이 중요합니다 데이터의 의미이므로 프로젝트에서 가능한 한 가장 많은 통찰력을 얻을 수 있습니다 그만큼 우리가 데이터 과학 방법에 대해 이야기 할 필요가있는 다음 단계는 코딩이며, 나는 데이터 과학에서 코딩에 대한 매우 간단한 비 기술 개요입니다 여기 아이디어는 너는 거기에 들어가고 너는 정글의 왕 / 너의 주인에게 갈거야 도메인으로 이동하고 점프해야 할 때 데이터를 점프하게하십시오

자, 우리가 언제 이야기했는지 기억한다면 처음에는 Data Science Venn Diagram에 대해 코딩이 왼쪽 상단에 있습니다 그리고 우리는 종종 사람들이 일종의 코드 행을 입력하는 것을 생각하지만 (이는 매우 빈번합니다), 코딩에 대해 이야기 할 때 (또는 일반적으로 컴퓨터 만) 기억하는 것이 더 중요합니다 여기서 우리가 실제로 말하는 것은 데이터를 조작 할 수있는 기술입니다 원하는 통찰력을 얻는 데 필요한 절차를 수행해야하는 방식으로 귀하의 데이터에서 이제 우리가 논의 할 세 가지 매우 일반적인 범주가 있습니다 여기 datalab에 첫 번째는 앱입니다

이들은 전문화 된 응용 프로그램 또는 프로그램입니다 데이터 작업 두 번째는 데이터입니다 또는 구체적으로 데이터 형식 특별하다

웹 데이터 용 형식에 대해서는 잠깐 언급 할 것입니다 그런 다음 코드를 작성하십시오 프로그래밍이있다 컴퓨터에서 수행하는 작업과 상호 작용하는 방식을 완벽하게 제어 할 수있는 언어 데이터로 각각을 잠깐 살펴 보겠습니다 앱 측면에서는 스프레드 시트 (예 : Excel 또는 Google 스프레드 시트) 아마 이것들은 아마도 세계의 대다수

데이터 시각화를위한 Tableau, 또는 SPSS는 사회 과학 및 비즈니스에서 매우 일반적인 통계 패키지이며, 그리고 내가 좋아하는 것 중 하나 인 JASP는 SPSS의 무료 오픈 소스 아날로그이며 실제로 연구를 사용하고 복제하는 것이 훨씬 쉽다고 생각합니다 그리고, 다른 톤이 있습니다 선택 이제 웹 데이터 측면에서 볼 때 HTML, XML, JSON 및 웹에서 데이터를 캡슐화하는 데 사용되는 기타 형식 그것들은 여러분이 상호 작용하기 위해 프로그래밍해야 할 것들입니다 당신이 당신의 데이터를 얻을 때

그리고 실제 코딩 언어가 있습니다 R은 아마도 Python과 함께 가장 일반적입니다 범용 언어이지만 잘 적응 해왔다 데이터 사용 SQL, 데이터베이스 구조화 된 쿼리 언어 및 매우 기본적인 언어가 있습니다

C, C ++ 및 Java와 같이 데이터 과학의 백엔드에서 더 많이 사용됩니다 그리고 가장 일반적인 명령 행 인터페이스 인 Bash와 정규식이 있습니다 그리고 우리 여기 datalab의 다른 코스에서이 모든 것을 말할 것입니다 그러나 이것을 기억하십시오 : tools 도구 일뿐입니다 그것들은 데이터 과학 과정의 한 부분 일뿐입니다

그들은 수단이다 결국 목표는 통찰력입니다 당신은 당신이 가고자하는 곳을 알아야합니다 그런 다음 특정 목표에 도달하는 데 도움이되는 도구를 선택하기 만하면됩니다 그게 바로 가장 중요한 것

요약하면 다음과 같습니다 1 번, 도구를 현명하게 사용하십시오 질문은 도구 자체가 아니라 프로세스를 추진해야한다는 것을 기억하십시오 또한, 나는 약간 공구가 보통 충분하다는 것을 다만 언급 할 것이다 Excel로 엄청난 작업을 수행 할 수 있습니다

R 그리고 가장 중요한 것은 목표에 집중하고 도구를 선택하는 것입니다 심지어 목표와 일치하는 데이터까지도 포함 할 수 있으므로 귀하는 가장 유용한 통계를 얻을 수 있습니다 데이터 데이터 과학 방법에 대한 우리의 논의에서 다음 단계는 수학이며 나는 가고있다

데이터 과학에 관련된 수학에 대한 간단한 개요를 제공합니다 자, 중요한 것은 기억해야 할 것은 수학이 실제로 우리가 할 일의 기초를 형성한다는 것입니다 Data Science Venn Diagram으로 돌아 가면 오른쪽 구석에 통계가 있습니다 하지만 실제로 그것은 수학과 통계, 또는 일반적으로 양적 능력이지만, 우리는 수학 부분 그리고 아마 가장 중요한 질문은 얼마나 많은 수학이 필요한가입니다

네가해야 할 일을하는거야? 또는 다른 방법으로 말하자면 왜 수학이 필요합니까? 당신은 그것을 할 컴퓨터가 있습니까? 네가 원하지 않는 세 가지 이유를 생각해 볼 수있어 컴퓨터에 의지 할 수는 있지만 수학적으로 이해하면 도움이됩니다 여기에 그들은 다음과 같습니다 : 1 번, 당신은 어떤 절차를 사용해야하는지 그리고 왜 사용해야 하는지를 알아야합니다 그래서 너는 귀하의 질문, 당신은 귀하의 데이터를 가지고 충분히 이해해야합니다 정보에 입각 한 선택을하십시오

그다지 어려운 일이 아닙니다 둘째, 무엇을 해야할지 알아야합니다 일이 제대로 작동하지 않을 때 때때로 당신은 불가능한 결과를 얻습니다 나는 통계를 알고있다

네거티브 조정 된 R2를 얻을 수 있습니다 그 일은 일어나지 않아 그리고 그것은 좋은 것입니다 계산에 들어가는 수학을 알고 어떻게하면 분명히 무언가를 이해할 수 있습니다 불가능할 수도 있습니다

또는 요인 분석 또는 주요 구성 요소를 수행하려고합니다 변환하지 않을 순환 게재를 얻습니다 그것이 무엇인지 이해하는 데 도움이됩니다 알고리즘, 그리고 왜 그 상황에서 작동하지 않습니다 그리고 셋째, 흥미롭게도, 일부 절차, 일부 수학은에 의해보다 쉽고 빠르게 할 수 있습니다 컴퓨터가 터졌다

그리고 나중의 비디오에서 몇 가지 예를 보여 드리겠습니다 그럴 수 있습니다 근본적으로 여기에 좋은 유추가 있습니다 수학은 데이터 과학은 예를 들어 화학은 요리, 운동학은 춤, 문법은 글쓰기에 있습니다 여기 아이디어는 당신이 알지 못하면 훌륭한 요리사가 될 수 있다는 것입니다

어떤 화학 물질이든간에 화학적 성질을 알고 있다면 도움이 될 것입니다 당신은 훌륭한 사람이 될 수 있습니다 무의미 ​​운동을하지 않고 무용수에게 도움을 줄 것입니다 그리고 당신은 아마 좋은 사람이 될 수 있습니다 작가는 문법에 대한 지식이 없어도 큰 도움이 될 것입니다

차 데이터 과학에 대해서도 마찬가지입니다 네가 가진다면 더 잘 할거야 몇 가지 기본 정보 그래서, 다음 질문은 : 어떤 종류의 수학이 당신은 데이터 과학을 필요로합니까? 글쎄, 거기에 몇 가지 답변이 있습니다

숫자 1은 대수학입니다 당신은 몇 가지 기본 대수학이 필요합니다 즉, 기본적으로 간단한 것입니다 너는 할 수있다 선형 대수학이나 행렬 대수학을 수행하십시오

왜냐하면 그것이 많은 계산의 기초이기 때문입니다 또한 여러 방정식을 풀려고 할 때 선형 방정식 시스템을 사용할 수도 있습니다 한꺼번에 이론 상으로는 까다로운 일이지만, 이것이 바로 그 중 하나입니다 때로는 손으로하는 것이 실제로 쉽습니다

이제 더 많은 수학이 있습니다 당신은 미적분을 얻을 수 있습니다 함수의 순서와 관련이있는 커다란 O를 얻을 수 있습니다 얼마나 빨리 작동하는지 확률 이론은 중요 할 수 있으며, Bayes의 정리 사후 확률이라고 불리는 것을 얻는 방법은 또한 정말 유용한 도구가 될 수 있습니다

데이터 과학의 근본적인 질문에 답하기위한 것입니다 그래서 합계 : 약간의 수학 분석을 계획 할 때 정보에 입각 한 선택을하는 데 도움이 될 수 있습니다 매우 유의하게, 일이 올바르게 진행되지 않을 때 문제를 찾고 해결할 수 있도록 도와줍니다 그것은 능력이다 차이를 만드는 두포를 살펴 보는 것

그리고 진실하게, 몇몇 수학적 절차들, 선형 방정식과 같은 시스템은 수작업으로 수행 할 수도 있고 때로는 더 빠르게 수행 할 수도 있습니다 당신은 컴퓨터로 할 수 있습니다 따라서 시간과 노력을 절약하고 움직일 수 있습니다 더 빨리 귀하의 통찰력 목표를 달성하십시오 이제 데이터 과학은 데이터 과학이 아니 겠지요

그리고 약간의 통계없이 그것의 방법 그래서 간단한 통계 자료를 알려 드리겠습니다 데이터 과학에서 일하는 방식에 대한 개요 이제 통계를 실제로 생각할 수 있습니다 혼란 속에서 질서를 찾으려는 시도는 압도적 인 혼란 속에서 패턴을 발견한다 시도하는 것과 비슷합니다

숲과 나무를 볼 수 있습니다 이제 우리의 작은 벤 다이어그램으로 돌아가 봅시다 우리 최근에는 상단 모서리에 수학과 통계가 있습니다 우리는 다시 이야기로 돌아갈 것입니다 특히 통계에 대해서

당신이 여기서하려고하는 것은 무엇입니까; 한 가지는 데이터를 탐색하는 것입니다 우리는 시각적 인 사람들이며 일반적으로 가장 쉽기 때문에 탐험적인 그래픽을 가질 수 있습니다 사물을 볼 수 있습니다 데이터의 수치 적 탐색 인 탐색 통계를 가질 수 있습니다 그리고 너 대부분의 사람들이 말했던 것들을 설명하는 통계를 가질 수 있습니다

그들이 대학에서 통계 수업을 듣던시기에 대해 (그들이 그렇게한다면) 다음으로 추론 바람과 공기에 대해 추측 할 수 있기 때문에 여기에 연기가 나옵니다 연기에서 패턴을보고 움직임 여기 아이디어는 당신이 표본의 정보를 수집하고 인구에 관한 정보를 추론합니다

너는 가려고하고있다 한 근원 한 가지 일반적인 버전은 가설 테스트입니다 또 다른 공통점 버전은 추정치이며 때로는 신뢰 구간이라고도합니다 그것을 할 수있는 다른 방법이 있습니다

그러나이 모든 것들이 데이터를 넘어 더 큰 결론을 내릴 수있게 해줍니다 지금, 통계에 대한 흥미로운 점 중 하나는 일부 세부 사항을 정리하고 일을 정리합니다 예를 들어, 뭔가를 할 수 있습니다 피쳐 선택과 같은 기능이며 피킹 변수 또는 조합을 포함해야합니다 문제를 일으킬 수있는 문제가 자주 발생하며 몇 가지 문제를 해결할 것입니다

나중에 동영상에있는 사람들의 유효성 검사의 문제도 있습니다 통계를 만들 때 모델이 실제로 정확한지 확인해야합니다 바라기를, 당신은 당신이 할 수있는 충분한 자료가있다 홀 아웃 샘플을 가지고 그렇게하거나, 당신은 연구를 복제 할 수 있습니다 그런 다음 당신이 사용하는 견적 도구의 선택; 실제로 계수 나 조합을 얻는 방법 귀하의 모델에서 그리고 나서 모델이 데이터에 얼마나 잘 맞는지 평가하는 방법이 있습니다

모든 이것들은 제가 통계 분석에 관해 이야기 할 때 잠깐 언급 할 문제들입니다 더 큰 길이 자, 여기서 특히 한가지 언급하고 싶습니다 이 "트롤을 조심하십시오" 밖에있는 사람들이 있습니다

일을 정확하게 말하고, 분석을하는 것은 의미가 없으며, 데이터가 쓰레기이며 모든 시간을 낭비했습니다 있잖아? 그들은 트롤입니다 그래서, 그 아이디어는 여기는 듣지 마라 당신은 자신의 정보에 입각 한 결정을 충분히 할 수 있습니다 계속해서 유용하고 유용한 분석을 할 수 있습니다

아마도 가장 중요한 것 중 하나 이것에 대해 생각해 볼만한 것은 매우 유명한 통계 학자의 훌륭한 견적이며 "모든 모델 또는 모든 통계 모델이 잘못되었지만 일부 모델은 유용합니다" 그래서 질문은 당신이 기술적으로 옳은가, 아니면 일종의 지적 수준을 가지고 있느냐가 아닙니다 순결하지만, 당신이 유용한 것이 있는지 여부 그건 그렇고, 조지에게서 나온거야 상자

그리고 저는 기본적으로 이것을 다음과 같이 생각하고 있습니다 : 국기를 물결 치듯 흔들어서 " 너 자신이 "깃발을 쓰고, 자존심을 가져라 그것을 비판하는 사람들입니다 계속해, 너는 무언가를하고, 계속 나아가고,해라 그래서 요약하면 통계를 통해 데이터를 탐색하고 설명 할 수 있습니다 그것은 당신이 추론 할 수있게 해준다

인구에 관한 것들 사용할 수있는 선택 항목이 많고 많은 절차가 있습니다 그러나 당신이하는 일과 상관없이, 그 목표는 유용한 통찰력입니다 그 목표와 당신의 눈을 계속 지켜라 당신의 연구에 도움이되도록 당신의 데이터에 의미 있고 유용한 것을 발견 할 것입니다

및 프로젝트 간단한 개요를 통해 데이터 과학 방법 개요를 마무리하겠습니다 기계 학습 자, 저는 여러분이 "기계 학습"이라는 말을 할 때 인정해야합니다 사람들은 뭔가 생각하기 시작합니다

"로봇 로봇 대원이 세계 "그것은 그게 아니라, 다시 한 번 우리의 벤 다이어그램으로 돌아가 보자 그리고 코딩과 통계 사이의 맨 위에있는 교차점에서 기계 학습 또는 일반적으로 ML이라고 부릅니다 기계 학습의 목표는 데이터로 이동하여 작업하는 것입니다 예를 들어, 많은 양의 데이터를 가져갈 수 있습니다 (우리는 엄청난 양의 책을 가지고 있습니다

여기), 차원을 줄일 수 있습니다 즉, 매우 크고 흩어져있는 데이터를 가져옵니다 해당 데이터의 가장 중요한 부분을 찾아 설정하십시오 그런 다음이 방법을 사용할 수 있습니다 데이터 내의 클러스터를 찾는다

like like 같이 간다 k-means와 같은 방법을 사용할 수 있습니다 또한 데이터 공간에 나타나는 비정상적인 사례를 찾을 수도 있습니다 또는, 우리가 카테고리로 다시 돌아 가면, 나는 같은 것에 대해 이야기했다 다음과 같은 것을 사용할 수 있습니다

로지스틱 회귀 또는 k- 가장 가까운 이웃, KNN Naive Bayes를 사용하여 분류 할 수 있습니다 또는 Decision Trees 또는 SVM (Support Vector Machines) 또는 인공 신경망 (artificial neural net)을 사용합니다 그 중 어떤 것도 데이터에서 패턴과 덩어리를 찾는데 도움이됩니다 서로 비슷한 비슷한 경우를 말하며 결론을 내리는 데 필요한 응집력을 얻으십시오

이 그룹들에 대해서 또한 기계 학습의 주요 요소는 예측입니다 너는 길을 가르키 려합니다 가장 일반적인 방법은 여기에 있습니다 가장 기본적인 선형 회귀, 다중 회귀입니다

푸 아송 회귀도 있습니다 카운트 또는 주파수 데이터를 모델링하는 데 사용됩니다 Ensemble 모델의 문제가 있습니다 여기서 여러 모델을 만들고 각 모델에서 예측을 가져옵니다 그것들을 합쳐서보다 믿을만한 예측을 얻습니다

이제 각각에 대해 이야기하겠습니다 이것들은 나중의 과정에서 조금 더 자세하게 설명하지만, 지금 당장은 당신이 이러한 것들이 존재한다는 것을 알고, 그것이 우리가 기계 학습을 말할 때 의미하는 바입니다 따라서, 기계 학습을 사용하여 사례를 분류하고 점수를 예측할 수 있습니다 결과 그리고 많은 선택, 많은 선택과 절차가 있습니다

그러나 다시, 내가 통계로 말했듯이, 그리고 나중에도 여러 번 다시 말할거야 상관없이, 목표는 "인공 신경 네트워크 또는 SVM을 할 것"이 아니라 목표는 귀하의 데이터에 대한 유용한 통찰력 기계 학습은 도구이며이를 사용하여 필요한 통찰력을 얻는 데 도움이됩니다 지난 몇 편의 동영상에서 기술적 인 것의 데이터 과학에서의 역할 반면에 의사 소통은 필수적입니다

연습에 대해 말하면서 해석 할 수있는 부분이 있습니다 그만큼 여기서 아이디어는 데이터 경로를 통해 사람들을 이끌 수 있기를 바랍니다 너는 원한다 데이터 기반 스토리를 말하면 데이터로 수행하는 작업의 전체 목표입니다 과학

이제 이것에 대해 생각해 볼 수있는 또 다른 방법은 분석을 할 때 무엇을 당신이하려고하는 것은 가치를 해결하는 것입니다 방정식을 만들고있어 데이터를 가져 가면됩니다 가치를 위해 노력하고 있습니다 문제는 이것이다 : 많은 사람들이 분석에 매달린다

그러나 그들은 분석이 가치와 같은 것이 아니라는 것을 기억해야합니다 대신, 나는 좋아한다 이것을 분석하는 방법 : 분석 시간 이야기는 가치와 동일합니다 자,주의하십시오 그건 곱셈 적 (additive)이 아니라 곱셈 (multiplicative) 이니까, 그 중 하나의 결과는 여러분이 돌아갈 때입니다

~, 분석 시간 이야기는 가치와 같습니다 글쎄, 만약 당신이 이야기가 없다면 왜냐하면, 당신이 기억하기에, 0 번이 0이기 때문입니다 그래서, 그 대신에 이것으로 돌아가서 우리가 정말로하고 싶은 말은 이야기를 극대화하기 위해서입니다 우리는 분석 결과로 얻는 가치를 극대화 할 수 있습니다 다시 최대 값은 전체적인 목표는 여기에 있습니다

분석, 도구, 기술은 그 목표 그럼 목표에 대해 이야기 해 봅시다 예를 들어 분석은 목표 지향적입니다 당신 구체적인 것을 성취하려고 시도하고 있습니다 그래서 이야기 나 내러티브는, 또는 프로젝트에 대한 설명이 그 목표와 일치해야합니다

일하고 있다면 특정 질문이있는 고객이 대답하기를 원한다면 그 질문에 명확하고 모호하지 않게 답변 할 수있는 전문적인 책임 당신이 예 또는 아니오를 말했는지를 알며 그들은 당신이 예 또는 아니오라고 말한 이유를 압니다 자, 문제의 일부 여기에 고객이 당신이 아니라 당신이하는 것을 보지 못한다는 사실이 있습니다 그리고 내가 보여 주듯이 여기에 단순히 얼굴을 가리는 것만으로는 사라지지 않습니다 걱정해야 해 약간의 심리적 추상화

당신은 자기 중심주의에 대해 걱정해야합니다 그리고 나는 말하고 있지 않다 헛되다는 것에 대해, 나는 다른 사람들이보고 알고 있다고 생각하는 생각에 대해 이야기하고있다 네가 아는 것을 이해하라 그건 사실이 아니야; 그렇지 않으면, 그들은 당신을 고용하지 않았을 것입니다

첫 번째 장소 그래서 당신은 클라이언트가 작동하는 측면에서 그것을 넣어야합니다 그들은 이해하고, 당신은 자신의 중심에서 벗어나야 만 그렇게 또한 잘못된 합의에 대한 생각이 있습니다 "모두들 잘 압니다

" 그리고 다시, 그것은 사실이 아닙니다 그렇지 않으면 그들은 당신을 고용하지 않았을 것입니다 너는 이해할 필요가있어 그들은 다른 범위의 경험을 가진 다른 배경에서 올 것입니다 해석

당신은 그것을 보상해야 할 것입니다 재미있는 작은 것 앵커링에 대한 아이디어입니다 누군가에게 초기 인상을 줄 때, 그들은 그것을 사용합니다 앵커로서, 그리고 그들은 그것에서 멀리 조정 그래서 물건을 뒤집어 쓰려고한다면 그들의 머리 위로, 처음에 잘못된 인상을 주시 함을주의하십시오

당신은 절대적으로 필요합니다 하지만 가장 중요한 것은 클라이언트와 클라이언트 사이의 격차를 줄이기 위해서입니다 그리고 당신은 명확성을 가져야하고 각 단계에서 자신을 설명해야합니다 당신은 또한 생각할 수 있습니다 대답에 대해

프로젝트를 클라이언트에게 설명 할 때 아주 간단한 절차에서 시작하려면 : 대답하는 질문을 기술하십시오 주기 그 질문에 대한 당신의 대답, 그리고 필요하다면 필요에 따라 자격을 얻으십시오 그리고 나서 순서대로 가라 위에서 아래로, 그래서 당신이 말하고있는 것을 가능한 한 명확하게하려고 노력하고 있습니다 대답은, 그리고 따르기 정말 쉽습니다

이제 프로세스를 논의하는 측면에서, 어떻게이 모든 일을했는지 대부분의 경우 그들은 아마도 그들이 신경 쓰지 않는 경우 일 것입니다 대답이 무엇인지 알기를 원하고 당신이 그것을 얻기 위해 좋은 방법을 사용했다는 것을 알고 싶습니다 그래서, 절대적으로 필요한 경우에만 프로세스 또는 기술 세부 사항을 논의하는 용어 그게 마음에 두는 무엇

이 과정은 분석을 기억하는 것입니다 떨어져 무언가를 깨기 그건 그렇고, 이것은 기계식 타자기입니다 개별 구성 요소 분석이란 무엇인가 떨어져 나가는 것을 의미하며 데이터 분석은 단순화 운동

당신은 전반적인 복잡성을 압도합니다 데이터를 끓여서 이해하고 제공하는 패턴을 찾는 것입니다 고객의 요구 이제 친구 인 앨버트 아인슈타인 (Albert Einstein)의 멋진 견적을 보겠습니다 여기에 누가 말 했는가

"모든 것은 가능한 단순하게해야하지만 단순하지는 않아야한다" 그게 당신의 분석을 발표 할 때 진실입니다 또는 건축가와 디자이너를 만나러 가고 싶다면 Ludwig Mies van der Rohe는 "적은 것이 더 많습니다"라고 말했습니다 실제로 Robert Browning입니다

원래 그것을 말했다, 그러나 Mies van der Rohe는 그것을 대중화했다 또는, 다른 방법을 원한다면 내 분야에서 오는 원리를 두는 것, 나는 실제로 심리학 연구자이다 그들은 최소한으로 충분하다고 이야기합니다 적절하게 질문에 대답하기에 충분합니다 당신이 상상할 수있는 최소한의 실행 가능한 제품에 대해 알고 있다면 그것은 같은 생각입니다 분석 범위 내에서 최소한의 실행 가능한 분석

여기에 몇 가지 팁이 있습니다 프레 젠 테이션, 더 많은 차트, 적은 텍스트, 좋은 그런 다음 차트를 단순화하십시오 모든 것을 제거하십시오 거기에있을 필요는 없습니다

일반적으로 데이터 테이블을 사용하지 않으려는 경우 읽을 수 없습니다 그리고 나서, 한 번 더 강조하기를 원하기 때문에, 텍스트는 적습니다 다시 차트, 테이블은 일반적으로 메시지를 전달할 수 있습니다 그래서, 내가 한 가지 예를 들어 보겠다

이리 나는 Berkeley 입학에서 매우 유명한 데이터 세트를 제공 할 것입니다 자, 이것들은 버클리의 계단이지만 멀리있는 곳으로 들어 가려고하는 아이디어를줍니다 떨어져 그리고 먼 여기에 데이터가 있습니다

이것은 1973 년에 대학원 입학 이었으므로 40 년이 넘었습니다 아이디어는 남녀가 모두 대학원에 지원한다는 것이다 버클리 대학에서 우리가 발견 한 사실은 신청 한 사람들은 인정을 받았고, 그들은 녹색으로 된 부분입니다 그리고 여성 중 35 %만이 여성들이 입양되었을 때 입원했다 그래서, 이것은 언뜻보기에 편향입니다

실제로 소송을 일으켰습니다 중요한 문제였습니다 그래서, 버클리는 그 다음에 무엇을하려고 했습니까? "이 편견에 책임있는 프로그램은 무엇인가?" 그리고 그들은 매우 호기심이 많습니다 결과 집합 응용 프로그램을 프로그램별로 분리하면 (여기서는 A ~ F), 여섯 가지 프로그램

당신이 실제로 발견 한 것은, 이것들 각각에있는 것입니다 왼쪽 여성 지원자의 남성 지원자가 오른쪽에 있습니다 프로그램 A를 보면, 여성들은 실제로 더 높은 비율로 받아 들여졌고 B도 마찬가지입니다 D에 대해서는 참이고 F에 대해서도 마찬가지입니다 그래서 이것은 매우 흥미로운 답변입니다 그것은 설명이 필요한 것입니다

이제 통계에서 이것은 심슨의 역설이라고합니다 그러나 여기에 역설이 있습니다 편견은 부서 수준 사실 4 개 부서에서 보았 듯이, 여성에게 편향되어있다 그리고 문제는 여성들이보다 선별적인 프로그램에 적용되고, 합격률이 낮은 프로그램

이제 어떤 사람들은 여기서 멈추고 따라서 말합니다 "아무 일도 일어나지 않고 불평 할 것이 없다" 하지만 너도 알다시피, 아직 끝이야 이야기는 조금 일찍 당신이 물어볼 수있는 다른 질문들이 있습니다

데이터 중심의 이야기입니다 이것은 당신이하고 싶은 일입니다 예를 들어 "왜 프로그램이 전체 수업 규모가 다른가요? 왜 받아 들일 수 있습니까? 요금은 프로그램마다 다릅니다 왜 남녀가 다른 프로그램에 적용됩니까? " 그리고 각 프로그램에 대한 입학 기준 같은 것을 보길 원할 수도 있습니다 판촉 전략, 그들이 학생들에게 어떻게 자신을 광고하는지

너는 할 수있다 학생들이 프로그램에서 가지고있는 이전 교육의 종류를보고, 당신이 정말로 원한다면 각 프로그램의 기금 수준을 살펴보아야합니다 그래서 정말로, 당신은 적어도 하나의 대답을 얻습니다 더 많은 질문, 아마도 더 많은 답변, 그리고 더 많은 질문, 당신은 충분히 언급해야합니다 고객에게 포괄적 인 개요 및 솔루션을 제공 할 수 있습니다 요약하자면, 이야기는 데이터 분석에 가치를 부여합니다

그리고 이야기를 할 때, 당신은 분명하고 명확한 방법으로 고객의 목표를 달성하고 있는지 확인하십시오 전체 원칙은 여기에 최소한으로 충분합니다 요점을 짚으십시오 뭐라고 당신이해야하지만, 그렇지 않으면 간결하고 당신의 메시지를 명확하게하십시오 다음 단계 데이터 과학 및 의사 소통에 관해 논의하는 것은 실용적인 통찰이나 정보에 대해 이야기하는 것입니다

어떤 것을 성취하기 위해 생산적으로 사용될 수 있습니다 자, 기괴한 일종의 여기서 게임 컨트롤러를 보게됩니다 그것은 꽤 좋은 것일 수 있습니다 기억하지만, 게임 컨트롤러는 뭔가를하기 위해 존재합니다 너를 돕기 위해 존재한다

게임을 가능한 한 효율적으로 수행해야합니다 그들은 기능을 가지고 있으며, 목적을 가지고 있습니다 같은 방식으로 데이터를 처리합니다 자, 그건 제가 좋아하는 역사적 사건 중 하나에 대한 의역입니다 수치

이것은 American Psychology의 아버지 인 William James입니다 실용주의는 철학 그리고 그는이 멋진 견적을 가지고 있다고 말했습니다 "내 생각은 처음이자 마지막이다 항상 내 일을 위해서

"그리고 그 아이디어는 분석에 적용됩니다 당신의 데이터는 당신을 위해서입니다 그래서, 당신은 특정 종류의 것을 얻기 위해 노력하고 있습니다 진행 방법에 대한 통찰력 당신이 피하고 싶은 것은 이것과 반대입니다

내 다른 좋아하는 문화 영웅 중 하나, 유명한 양키스 포수 요기 베라, 누가 "우리는 길을 잃었지만 즐거운 시간을 보내고있다"고 말했다 여기의 아이디어는 광란의 활동이 방향의 부족을 보완하지 못한다 당신이하고있는 일을 이해할 필요가 있습니다 특정 목표에 도달하십시오 그리고 당신의 분석은 그것을하기로되어 있습니다

그래서, 당신이 줄 때 당신의 분석, 당신은 그 길을 지적하려고 노력할 것입니다 기억하십시오, 왜 프로젝트가 실시 되었습니까? 목표는 대개 일종의 행동을 유도하고 고객을위한 일종의 목표에 도달하는 것입니다 그리고 그 분석은 정보에 입각 한 방식으로 그 행동을 인도 할 수 있어야합니다 한 가지 당신은 당신의 고객에게 다음 단계를 줄 수 있기를 원합니다 줘 다음 단계; 지금 그들이해야 할 일을 말해주십시오

당신은 각자를 정당화 할 수 있기를 원합니다 데이터 및 분석을 통한 권장 사항 최대한 구체적으로 말하자면, 그들이해야 할 일을 정확하게 말해주십시오 고객이 할 수 있는지 확인하십시오 능력 범위 내에서 그리고 각 단계는 이전 단계에서 작성되어야합니다

자, 그것은 말하기를, 정말로 근본적인 종류의 철학적 문제가 있습니다 여기, 그리고 그것은 상관과 인과 관계의 차이입니다 기본적으로, 그것은 이렇게 간다 : 데이터는 상관 관계를 제공합니다 당신은 이것이 이것과 관련되어 있다는 것을 압니다 하지만 너의 클라이언트는 단순히 관련 내용을 알고 싶지 않습니다

그들은 무엇이 원인인지 알고 싶어한다 어떤 것 왜냐하면 만약 그들이 뭔가를하려고한다면, 그건 개입 이니까요 특정 결과를 생성합니다 그래서, 정말로, 당신은 상관 관계로부터 어떻게 얻습니까? 데이터에서, 인과 관계에, 고객이 원하는 것은 무엇입니까? 글쎄요

몇 가지 방법이 있습니다 하나는 실험적 연구입니다 이들은 무작위로 통제된다 시련 이제 이론적으로는 인과 관계에 대한 가장 단순한 경로이지만, 실제로는 까다로울 수 있습니다

현실 세계에서 준 실험 (quasi-experiments)이 있으며, 이것들은 방법, 전체 모음 방법의 그들은 무작위 화되지 않은 데이터, 일반적으로 관측 데이터를 사용합니다 인과 관계 추론의 추정치를 얻는 방법 또는 이론과 경험이 있습니다

과 이것은 연구 기반 이론 및 도메인 별 경험입니다 그리고 이것은 실제로 당신이있는 곳입니다 고객 정보에 의지하십시오 그들은 당신이 정보를 해석하는 것을 도울 수 있고, 특히 도메인 전문성이 귀하보다 더 큰 경우 생각할 또 다른 사항 귀하의 데이터에 영향을 미치는 사회적 요소입니다 이제 데이터 과학 Venn Diagram을 기억합니다

우리는 많은 시간을 보았습니다 그것은이 세 가지 요소를 가지고 있습니다 일부 제안 추가 이 벤 다이어그램의 네 번째 원이고, 우리는 거기에 넣으면서 말할 것입니다 사회 이해는 또한 중요한 데이터 과학에 중요합니다 자, 사랑해

그 아이디어, 그리고 나는 그것이 어떻게 진행되는지를 이해하는 것이 중요하다고 생각합니다 아웃 몇 가지 종류의 사회적 이해가 있습니다 당신은 당신의 고객의 사명을 알고 싶습니다 당신은 당신의 권고 사항이 고객의 사명과 일치하는지 확인하고 싶습니다

또한 귀하의 권장 사항은 고객의 신원과 일치합니다 뿐만 아니라, "이것은 우리가하는 일 "이라고 말하지만"이것은 정말로 우리가 누구인가 "라는 것을 인식해야합니다 컨텍스트, 경쟁 환경의 종류 및 규제 환경 사회적인 맥락뿐만 아니라 조직 외부에있을 수 있습니다 조직 내에서 더욱 자주 발생합니다

추천 내용은 관계에 영향을 미칩니다 클라이언트 조직 내에서 그리고 당신은 그것들을 많이 알기 위해 노력할 것입니다 권장 사항을 필요한 방식으로 실현할 수 있도록 할 수 있습니다 그래서, 요약하면 : 데이터 과학은 목표에 중점을두고 있으며, 목표에 집중할 때는 고객은 분석과 정당성에 근거하여 다음 단계를 구체적으로 제시해야합니다 데이터에서

그렇게 할 때 사회적, 정치적, 경제적 맥락을 인식하십시오 그러면 분석에서 정말 유용한 것을 얻을 수있는 최상의 기회를 얻을 수 있습니다 데이터 과학에서 일하고 결과를 전달하려고 할 때 프레젠테이션 그래픽은 엄청난 도움이 될 수 있습니다 이 방법으로 생각하십시오 페인트하려고합니다

고객의 이익을위한 그림 이제 그래픽으로 작업 할 때 서로 다른 두 가지 목표가 될 수 있습니다 그것은 당신이 작업하고있는 그래픽의 종류에 달려 있습니다 탐색 적 그래픽의 일반적인 범주가 있습니다 이들은 당신이 사용하고있는 것들입니다

분석가로서 탐색 그래픽의 경우 속도와 응답 성이 필요합니다 매우 간단한 그래픽을 얻을 수 있습니다 이것은 R의 기본 히스토그램입니다 그리고 조금씩 얻을 수 있습니다

더 정교하고 이것은 ggplot2에서 행해진 다 그리고 당신은 다른 두 사람으로 나눌 수 있습니다 히스토그램을 만들거나 다른 방식으로 만들거나 투명하게 만들거나 분할 할 수 있습니다 떨어져 작은 배수로 그러나 각각의 경우에, 이것은 당신의 이익을 위해 분석가는 데이터를 이해합니다

이것들은 빠르고 효과적입니다 이제 그들은 그렇지 않습니다 매우 잘 레이블이 붙어 있으며 일반적으로 당신의 통찰력을위한 것입니다 그런 다음 당신은 다른 일을합니다 그 결과로 반면에, 당신의 이익을위한 프리젠 테이션 그래픽 고객은 명확성이 필요하며 서술 흐름이 필요합니다

이제 각각에 대해 이야기하겠습니다 그 특징들을 아주 간략하게 선명도 대 산만 함 저기있는 것들이있다 그래픽에서 잘못 될 수 있습니다 번호 하나는 색상입니다

색상은 실제로 문제가 될 수 있습니다 또한, 3 차원 또는 잘못된 차원은 거의 항상주의 산만합니다 어떤 사람들에게는 약간의 감동을주는 사람 상호 작용입니다 인터랙티브 그래픽은 정말 멋지고 훌륭한 것들이라고 생각합니다 당신은 사람들이 상호 작용에 정신이 흐려지고 놀 수있는 위험을 감수합니다

그것으로 가는 것, "오, 나는 그것을 여기에서 눌러" 그리고 그것은 메시지에서 산만 해집니다 실제로, 상호 작용을하지 않는 것이 중요 할 수 있습니다 그리고 똑같은 것이 사실입니다

애니메이션의 평평하고 정적 인 그래픽은 더 적은 수의 정보를 제공하기 때문에 종종 유익합니다 그들의 산만 함 어떻게하면 일을하지 않는지에 대한 간단한 예를 들어 드리겠습니다 자,이 내가 만든 차트입니다 나는 그것을 Excel에서 만들었고, 나는 실수의 일부를 토대로 그것을했다

내가 가르치면 그래픽으로 보았습니다 그리고 나는 모든 것을 보증합니다 여기 나는 실생활에서 보았을뿐입니다 확대 해 보겠습니다 약간, 그래서 우리는이 그래픽의 모든 나쁜 점을 볼 수 있습니다

그리고 무슨 일이 일어나는지 보자 여기에 우리는 8에서 시작하여 28 %로 작고 규모가 작습니다 심지어하지 않습니다 데이터의 범위를 커버하십시오

우리 벽에이 기괴한 그림이 있습니다 우리는 벽에있는 액세스 라인 우리는 여기서 내려와 교육 수준 레이블은 알파벳순으로 표시됩니다 오히려 더 논리적 인 높은 수준의 교육이 필요하다

그런 다음 데이터를 얻었습니다 원뿔 모양으로 표시되어 읽기와 비교가 어려우며 더 악화되었습니다 색상과 질감으로 혹시 극단을 잡고 싶다면 대학원 학위는 심지어 8 %의 바닥 값과 고등학교 졸업을위한이 값으로 만들지 않습니다 상단에서 28 %로 잘립니다

그런데 이것은 양의 그림이며, 사람들은 이런 종류의 물건과 그것은 나를 미치게한다 더 나은 차트를보고 싶다면 똑같은 데이터, 바로 여기 있습니다 그것은 직선형 막 대형 차트입니다 평평하고 간단합니다 그것은 가능한 한 깨끗합니다

그리고 이것은 여러면에서 더 낫습니다 가장 효과적인 방법은 그것은 분명히 의사 소통합니다 산만 함이 없으며 논리적 인 흐름입니다 이것은 얻을 것이다 그 점은 훨씬 더 빠릅니다 그리고 저는 그것의 또 다른 예를 드릴 수 있습니다

여기 차트가있다 이전에 소득에 대한 급여 여기에 목록이 있는데, 데이터 과학자가 있습니다 내가 그것에주의를 끌기 원한다면, 나는 그 주위에 원을 그리는 옵션을 가지고있다 그것을 설명하기 위해 그 옆에 숫자를 붙일 수 있습니다

그것이 무엇인지 쉽게 알 수있는 한 가지 방법입니다 계속 우리는 공상을받을 필요조차 없습니다 있잖아, 방금 펜과 포스트잇을 꺼 냈어 나는 평균 수명에 관한 실제 데이터를 막대 그래프로 그려 봤다

이것은 이야기를 전한다 또한 시에라 리온에 뭔가 끔찍한 잘못이 있음을 알았습니다 하지만 이제 이야기 해 봅시다 프레젠테이션 그래픽에 서사 흐름을 만드는 방법 이렇게하기 위해, 나는 내가 가장 많이 인용 한 학술지 차트, A Third Choice : Review 회복 적 재판의 심리 결과에 관한 경험적 연구 에 대해 생각하다 청소년 범죄에 대한 중재로서, 주로 청소년

그리고이 논문은 흥미 롭습니다 실제로 그것들을 묶을 수있는 충분한 텍스트가있는 약 14 개의 막 대형 차트입니다 과 거기에 흐름이 있음을 알 수 있습니다 차트는 매우 간단합니다 이것은 형사 사법 제도는 공정했다

왼쪽의 두 막대는 희생자입니다 두 사람 오른쪽에있는 막대는 범죄자입니다 왼쪽의 각 그룹에는 참여한 사람들이 있습니다 회복 적 정의에서, 범죄에 대한 희생자 – 가해자 중재가 더 많아졌습니다 각 세트에 대해 권리는 표준 형사 절차를 거친 사람들입니다

그것은 법원을 말한다 일반적으로 탄원 협상을 의미합니다 아무튼, 두 경우 모두에서 회복 적 정의 술집이 더 높습니다 사람들은 그것이 공정하다고 말할 가능성이 더 큽니다 그들 또한 그들의 이야기를 전할 기회가 있다고 느꼈다

그 이유 중 하나는 그것이 공정하다고 생각할 수도 있습니다 그들은 또한 범죄자가 더 자주 책임을 져야한다고 생각했습니다 사실, 당신이 가해자에 관해 법정에 간다면, 그 사람은 50 % 미만입니다 범법자들은 스스로 판결을 내린다 그러면 용서와 사과에 갈 수 있습니다

그리고 다시 말하지만, 이것은 실제로 코드 작성의 간단한 작업이며 엄청난 양의 차 사실 큰 차이가있는 이유 중 하나는 법원 앞에서 범죄자는 희생자를 만나는 경우는 거의 없습니다 내가 필요로하는 것도 또한 나온다 학문의 다발이 술취한 운전을 포함하는 것을 포함했기 때문에 이것을 조금만 한정하기 위해 부상이나 사고는 없습니다 글쎄, 우리가 그들을 데리고 나오면, 우리는 커다란 변화를 보게됩니다

그리고 우리는 사람이 결과에 만족하는지 여부에 갈 수 있습니다 다시, 우리는 회복 적 정의 희생자가 아직도 범죄에 대해 화가 났는지 여부, 이제 바 조금 다릅니다 그리고 그들이 revictimization을 두려워하는지, 그리고 그것은 2 대 1 차이 그리고 마지막으로 범죄자 또는 재범에 대한 재범주의; 과 거기에는 큰 차이가 있습니다

그리고 제가 여기있는 것은 많은 차트들이 있습니다 매우 읽기 쉽고 전반적인 느낌을주는 방법에 대한 흐름이 다양합니다 그 다음에 조금 더 자세하게 설명합니다 여기서 아무것도 공상에 들지 않습니다 대화 형 서비스는 없습니다

움직이는 것도 없으며, 17 가지 방향으로 흐르지도 않습니다 그것은 쉽지만 이야기를 따르고 그것은 내러티브에 데이터를 알려주며 프레젠테이션 그래픽을 사용하여 주요 목표로 삼으십시오 합계 : 프레젠테이션 또는 사용하는 그래픽 프리젠 테이션을 위해 탐색 용 그래픽과 동일하지 않습니다 그들은 다르다 필요와 목표는 다릅니다

그러나 당신이하는 일과 상관없이, 그래픽과 당신이 말하는 것을 집중하고 있습니다 무엇보다도 강력한 서사를 창출합니다 당신이 예상대로 다른 관점의 관점을 제공하고 질문에 대답합니다 고객의 질문과 가장 신뢰할 수있는 확실한 정보와 최고의 정보를 제공합니다 분석에 대한 자신감

원하는 데이터 과학 및 의사 소통의 마지막 요소 이야기하는 것은 재현 가능한 연구입니다 그리고 당신은이 생각이라고 생각할 수 있습니다 너는 원한다 그 노래를 다시 연주 할 수 있습니다 그 이유는 데이터 과학 프로젝트가 드물게 "one and done;" 오히려 그들은 증분이되는 경향이 있으며 누적되는 경향이 있습니다

그들은 그들이 작업하고있는 이러한 환경에 적응하는 경향이 있습니다 따라서 중요한 여기에있는 것들을, 아마, 당신이 매우 간단하게 요약하고 싶다면, 이것입니다 : 당신의 일을 보여주세요 이것에 대한 몇 가지 이유가 있습니다 나중에 연구를 수정해야 할 수도 있습니다 자체 분석

다른 프로젝트를하고있을 수도 있고 이전 프로젝트에서 뭔가 빌리고 싶습니다 연구 미래의 시점에서 다른 사람에게 전달해야 할 가능성이 높습니다 당신이 한 일을 이해할 수 있어야합니다 그리고 나서 매우 중요한 의미가 있습니다

책임에 대한 과학적 연구와 경제적 연구 모두에 문제가있다 당신은 할 수 있어야합니다 당신이 책임있는 방식으로 일을했으며 당신의 결론이 정당하다는 것을 보여주십시오 그것은 고객, 기관, 규제 기관, 학계 평론가, 많은 사람들에게 자금을 지원합니다 이제 공개 데이터의 개념을 잘 알고 있을지 모르지만 친숙하지 않을 수도 있습니다

개방형 데이터 과학의 개념; 그것은 열린 데이터 이상입니다 예를 들어 오픈 데이터 사이언스 컨퍼런스 (Open Data Science Conference)와 ODSCcom이 있습니다 그리고 그것은 일년에 세 번씩 다른 장소에서 만난다 그리고 이것은 전적으로, 물론, 헌신적 인 것입니다

개방형 데이터를 사용하여 데이터 과학을 열어 사람들에게 투명하게 공개 그 주변 이 작업을 정말 간단하게 만들 수있는 한 가지는 Open이라고하는 것입니다 OSFio에있는 Science Framework 귀하의 데이터와 연구를 공유하는 방법입니다

다른 사람들과 모든 일을 처리하는 방법에 대한 주석이 있습니다 그것은 만든다 우리가 필요로하는 투명성 연구 내 전문 단체 중 하나 인 심리 과학 협회 (Association for Psychological Science)는 이에 대한 주요한 주도권을 가지고있다 그들은 윤리적으로 많은 사람들이 자신의 데이터를 공유하도록 강력히 권장하고 있습니다

연구를 수행하기도 전에 허용 된 방법을 절대적으로 공유해야합니다 엄격한 지적 정직과 책임감을 얻는 방법 이제는 데이터를 보관하고 해당 정보를 사용 가능하게하고 선반에 놓으십시오 여기서 원하는 작업은 모든 데이터 세트를 보관하려는 것입니다 둘 다 당신이 데이터 세트로 무엇을하기 전에 완전히 원시 처리를하고, 그 과정의 모든 단계까지 최종 클린 데이터 세트

이와 함께 여러분이 작성한 모든 코드를 그 과정에서 사용되었고 데이터를 분석했다 R과 같은 프로그래밍 언어를 사용했다면 또는 Python을 사용하면 정말 간단합니다 SPSS와 같은 프로그램을 사용했다면 구문을 저장해야합니다 파일로 변환 한 다음 그렇게 할 수 있습니다 그리고 다시, 무엇이든, 논평을 확실히하십시오 자유롭게 설명하고 자신을 설명하십시오

이제 그 부분은 프로세스를 설명해야한다는 것입니다 너 혼자 일하는 소파에 앉아있는이 외로운 사람이 아니기 때문에 다른 사람들과 당신이 왜 그렇게했는지 설명 할 필요가 있습니다 너는 필요해 선택을 설명하고 그 선택의 결과, 되돌아 가야했던 시간 다시 시도해보십시오 이것은 또한 미래를 보장하는 원리로 작용합니다

여기에 몇 가지 일을하고 싶습니다 첫번째; 자료 비 독점적으로 데이터를 저장하려고합니다 CSV 또는 쉼표로 구분 된 값 파일과 같은 형식은 CSV 파일을 읽을 수 있기 때문에 가능합니다 독점 SPSS

sav 형식으로 저장 한 경우 다음과 같은 문제가 발생할 수 있습니다 누군가 그것을 나중에 사용하려고 시도하고 열 수 없습니다 또한 저장 공간이 있습니다 너는 싶어한다 모든 파일을 GitHub과 같은 안전하고 액세스 가능한 위치에 저장하십시오

최선의 선택 그런 다음 코드를 사용하면 종속성 관리와 같은 것을 사용할 수 있습니다 Packat for R 또는 가상 환경 for Python과 같은 패키지는 당신이 사용하는 패키지 때로는 일을하기 때문에 항상 작동하는 버전이 있습니다 업데이트되고 깨졌습니다

이것은 시스템이 당신이 항상 일하게 될 것이다 전반적으로, 당신도 이것에 대해서 생각할 수 있습니다 당신 자신을 설명하고 싶습니다 그것을하기위한 깔끔한 방법은 서술을 노트에 넣는 것입니다 이제, 당신은 실험실 도서 또는 디지털 책을 할 수도 있습니다

정말 일반적인 것, 특히 네가 파이썬을 사용하는 Jupyter는 중간에 "y"가 있습니다 Jupyter 노트북은 대화식입니다 노트북 그래서, 여기 제가 파이썬으로 만든 스크린 샷이 있습니다 제목이 있습니다

당신은 텍스트를 가지고 있습니다, 당신은 그래픽을 가지고 있습니다 당신이 R에서 일하고 있다면, 당신은 이것을 통해 할 수 있습니다 RMarkdown이라고 불리는 것 RStudio에서와 같은 방식으로 작동합니다 Markdown과 주석을 달 수 있습니다

rmarkdownrstudiocom에서 자세한 정보를 얻을 수 있습니다 예를 들어, 제가 한 R 분석이 있습니다 코드를 볼 수 있듯이, 왼쪽으로 가면 오른쪽에 가격 인하 버전이 표시됩니다

이것에 대해 깔끔한 점은 여기서 약간의 코드,이 제목과이 텍스트, 그리고이 작은 R 코드의 코드는 다음과 같습니다 이 서식이 지정된 텍스트로 표시된이 제목은 전체 텍스트로 바뀝니다 R 출력 바로 거기 그것은 일을하는 좋은 방법입니다 RMarkdown을한다면 실제로 문서를 RPubs라는 이름으로 업로드 할 수있는 옵션이 있습니다

그게 누구든지 액세스 할 수있는 온라인 문서 다음은 샘플 문서입니다 과 보러 가고 싶다면이 주소로 갈 수 있습니다 좀 길어서 갈거야 그걸 당신이 쓰도록 내버려둬 요

하지만, 요약하면 : 여기에 우리가 가진 것이 있습니다 하고 싶다 작업을 수행하고 공동 작업을 지원하는 방식으로 정보를 보관하십시오 너의 설명을해라 선택, 당신이 한 일, 당신이 어떻게했는지를 보여줍니다

이를 통해 미래에 직장을 증명할 수 있으며, 그래서 그것은 다른 사람들을 위해 다른 상황에서 작동 할 것입니다 그리고 가능한 한 많은 어떻게하는지, 내러티브를 공유하여 사람들이 자신의 프로세스와 프로세스를 이해할 수 있도록하십시오 당신의 결론이 정당하고, 강하며, 믿을 만하다는 것을 알 수 있습니다 자, 내가 언급 한 것 데이터 과학에 관해 이야기 할 때 여러 번, 나는이 결론에서 다시 그것을 할 것입니다 사람들에게 다음 단계를 제공하는 것이 중요합니다

그리고 지금 당장 당신을 위해 할거예요 이 매우 일반적인 개요 과정을 본 후에해야 할 일이 무엇인지 궁금하다면, 나는 몇 가지 아이디어를 줄 수있다 1 번, 아마도 코딩을 시도하기 시작하고 싶을 것입니다 R 또는 Python에서; 우리는 그것들을위한 코스가 있습니다 데이터 시각화를 시도해보십시오

당신이 할 수있는 가장 중요한 것들 중 하나 통계를 다듬을 수도 있습니다 그리고 그것과 함께 어쩌면 몇 가지 수학 그리고 기계에 손을 대고 싶을 수도 있습니다 배우기

이 모든 것들이 당신을 데리고 데이터 과학의 실천을 이끌 것입니다 당신 또한 데이터 소싱을보고 시도 할 정보를 찾을 수 있습니다 그러나, 무슨 일이 일어나 든 관계없이 그것을 유지하려고 노력하십시오 예를 들어, 데이터 과학을 적용 할 수 있습니다 마케팅, 스포츠, 건강, 교육, 예술, 그리고 정말 거대한 다른 것의 수

그리고 우리는 여기 datalabcc에서 모든 것에 대해 이야기하는 코스를 갖게 될 것입니다 그 또한 데이터 과학 커뮤니티에 참여하기를 원할 수도 있습니다 당신이 갈 수있는 최고의 컨퍼런스 중 하나는 O'Reilly Strata입니다

1 년에 1 번 전세계에서 Predictive Analytics World도 있습니다 다시 몇 가지가 있습니다 1 년에 1 회 세계를 여행합니다 그런 다음 훨씬 작은 회의가 있습니다

나는 Tapestry를 좋아합니다 또는 데이터 과학의 스토리 텔링에 관한 tapestryconferencecom 그리고 추출, 위대한 데이터 중 하나 인 importio가 입력 한 데이터 스토리에 대한 1 일간의 컨퍼런스 웹 데이터 스크래핑에 사용할 수있는 소싱 애플리케이션

일을 시작하려면 실제 데이터를 사용하면 Kagglecom에 가서 데이터 과학을 후원하는 것이 좋습니다 대회에는 실제로 현금 보상이 있습니다 작업 할 수있는 멋진 데이터 세트도 있습니다 거기에서 그들이 어떻게 일하고 다른 사람들의 결과와 결과를 비교하는지 알아 내야합니다

과 일단 당신이 그것에 편안함을 느끼면, 실제로 돌아 서서 시도해 볼 수 있습니다 일부 서비스; datakindorg는 인도 주의적 데이터 과학을위한 최고의 조직입니다 서비스 그들은 전 세계 주요 프로젝트를 수행합니다

나는 그들의 예를 좋아한다 다른 것이있다 네가 할 수있는 일 Do Good Data라고하는 연례 행사가 있고 datalabcc는 2 년에 1 번씩 데이터 charrettes을 후원하는 것이 좋습니다

유타 지역에서 데이터에있는 지역 비영리 단체와 협력 할 수 있습니다 그러나 무엇보다도, 나는 이 한가지를 기억하십시오 : 데이터 과학은 근본적으로 민주적입니다 뭔가있어 모두가 어떤 방식 으로든 배우고, 모양을 만들거나 형성해야합니다 함께 일할 수있는 능력 데이터는 근본적인 능력이며 모든 사람들이 함께 일하는 것을 배우는 것이 더 나을 것입니다

데이터를 지능적이고 민감하게 처리합니다 또는, 다른 방법으로 말하면 : 데이터 과학은 당신을 필요로합니다 이 입문 과정에서 나와 합류 해 주신 것에 정말 감사드립니다 앞으로 datalabcc에서 다른 코스를 보게 될 것입니다

"데이터 소싱"에 오신 것을 환영합니다 저는 Barton Poulson이고이 과정에서 우리는 Data Opus에 대해 이야기 할 것입니다 필요한 데이터 여기서 아이디어는 데이터 없음, 데이터 과학 없음, 그리고 그것은 슬픈 일입니다 그래서, 그것을 떠나기보다는 우리는이 코스를 사용하여 기존 데이터 및 방법에 접근하기위한 데이터 및 방법 측정 및 평가 새로운 커스텀 데이터를 생성합니다

그것들을 함께 가져 가면 행복한 상황이됩니다 에서 같은 시간에 우리는 접근 가능하고 개념적이며 기술이없는 수준에서이 모든 것을 할 것입니다 기술적 인 손재주가 나중에 다른 코스에서 발생하기 때문입니다 그러나 지금은, 데이터를 말하자 데이터 소싱의 경우, 우리가 먼저 이야기하고자하는 것은 측정입니다

그 범주 내에서 우리는 메트릭에 대해 이야기 할 것입니다 여기 아이디어는 실제로 당신이 그것을 치는 기회를 원한다면 당신의 표적이 무엇인지 아는 것이 필요합니다 몇 가지가있다 이것에 대한 특별한 이유 우선, 데이터 과학은 행동 지향적입니다

목표는 뭔가를 단순히 이해하는 것과 반대되는 것으로 행동하십시오 학업 개업의 또한 목표는 명시 적이어야하며 이는 중요합니다 목표는 당신의 노력을 안내 할 수 있습니다 그래서, 당신은 정확히 무엇을 성취하려고하는지 말하고 싶습니다

그래서 당신은 언제 거기에 도착하는지 압니다 또한 클라이언트의 이익을위한 목표가 존재하며 좌절을 예방할 수있다 그들은 당신이하고있는 일을 알고 있고, 당신이해야 할 일을 알고 있습니다 거기까지 마지막으로 애널리스트의 이익을 위해 목표와 측정 항목이 존재합니다

그들은 당신이 당신의 시간을 잘 사용할 수 있도록 도와주기 때문입니다 너 언제 끝났는지 알지 너 언제 앞으로 나아갈 수 있고, 모든 것이 좀 더 효율적이고 조금은 나아지게 만듭니다 생산성 향상 그리고 우리가 이것에 대해서 이야기 할 때, 당신이하고 싶은 첫 번째 일은 특정 프로젝트 또는 도메인에서의 성공 당신이있는 곳, 상거래에 따라 판매 또는 클릭률 또는 신규 고객을 포함 할 수 있습니다

교육에서 시험 점수를 포함; 졸업률이나 유지율을 포함 할 수 있습니다 정부에서는 주택 및 일자리와 같은 것을 포함하십시오 연구에서는 사람들에게 봉사 할 수있는 능력을 포함 할 수 있습니다 너는 더 잘 이해해야한다 그래서, 도메인에 상관없이 다른 표준이있을 것입니다

성공하려면 도메인에 무엇이 적용되는지 알아야합니다 다음은 구체적입니다 측정법 또는 측정 방법 이제 다시 몇 가지 카테고리가 있습니다 그곳에 핵심 성과 지표 또는 KPI가있는 비즈니스 메트릭, 스마트 목표가 있습니다

(약어), 여러 목표를 갖는 문제도 있습니다 내가 말할거야 그것들 각각에 대해 지금은 잠깐입니다 우선 비즈니스 메트릭에 대해 이야기 해 봅시다 상업적 세계에 있다면 성공을 측정하는 몇 가지 일반적인 방법이 있습니다

매우 분명한 것은 판매 수익이다 너는 돈을 벌고 있니, 너는 물건을 옮기고 있니? 당신은 판매를 얻고 있습니까? 또한 리드 생성, 신규 고객 또는 신규 고객에 대한 문제가 있습니다 잠재적 인 고객은 미래의 판매와 관련되어 있기 때문입니다 저기있다 또한 고객 가치 또는 평생 고객 가치의 문제이므로 소수의 고객이있을 수 있습니다

고객은 모두 수익이 있지만 실제로이를 사용하여 수익을 예측할 수 있습니다 현재 시스템의 전반적인 수익성 그런 다음 해지 비율이 있습니다 새로운 고객을 잃고 얻고 많은 매출을 올리는 것과 함께하십시오 그래서, 이들 중 어떤 것도 성공을 정의하고 측정하는 잠재적 방법입니다

잠재 성이있다 메트릭에는 다른 것이 있지만 이것들은 공통적 인 것들입니다 지금, 나는 이전에 언급했다 핵심 성과 지표 또는 KPI라고하는 것 KPI는 David Parmenter와 그는 비즈니스에 대한 핵심 성과 지표라고 설명합니다

넘버 원은 결산이 아닌 비 금융이어야한다 그것과 관련되거나 협회의 전반적인 생산성을 측정하는 것 그들 예를 들어 매주, 매일 또는 지속적으로 수집 된 정보와 같이시기 적절해야합니다 그들 CEO의 중점을 두어야하기 때문에 고위 경영진은 일반적으로 조직이 KPI에 따라 행동하는 방식에 영향을주는 결정 그들은 간단해야합니다

조직의 모든 사람들은 모두가 자신의 존재를 알고 자신에 대해해야 할 일을 알고 있습니다 팀 기반이어야하므로 각 팀이 각 팀을 만날 책임이 있습니다 KPI의 그들은 중요한 영향을 미쳐야합니다 하나 이상의 중요한 결과에 영향을 미치므로 수익을 올리고 시장에 도달 할 수 있습니다 또는 개선 된 제조 시간 및 더 적은 결함

마지막으로, 이상적인 KPI는 제한된 어둠을 가지고 있습니다 그것은 잘못된 행동을 보강하고 보람을 줄 가능성이 적음을 의미합니다 시스템을 악용하는 사람들 다음으로 SMART 목표가 있습니다 SMART는 SMART 구체적이고, 측정 가능하며, 특정인에게 지정할 수 있음, 사실적 (당신을 의미 함) 당신이 가지고있는 자원으로 실제로 그것을 할 수 있습니다

), 시간 제한, (그래서 당신은 알고 있습니다 그것이 완료 될 수있을 때) 따라서 목표를 구성 할 때마다 각 목표에 대해 평가해야합니다 이 기준은 메트릭으로 사용하는 것이 좋은 목표라고 말하는 방식입니다 우리 조직의 성공을 위해 그러나 이제는 트릭이 여러 번있을 때입니다

목표, 가능한 여러 끝점 그리고 어려운 이유는, 음, 수익을 극대화하려는 경우 또는 단순한 졸업률을 극대화하려고 노력했습니다 당신이 할 수있는 많은 것들이 있습니다 더 많이된다 동시에 여러 가지 것에 집중해야 할 때 어려울 수 있습니다

특히 이러한 목표는 충돌 할 수 있습니다 하나를 극대화하기 위해하는 일은 다른 것을 손상시킬 수 있습니다 그렇게되면 실제로 의도적 인 프로세스에 참여해야합니다 최적화, 최적화해야합니다 그리고 당신이 이것을 할 수있는 방법이 있습니다

충분한 데이터를 가지고있다 당신은 수학적 최적화를 통해 이상적인 균형을 찾을 수 있습니다 하나의 목표와 다른 목표를 동시에 추구하려는 노력 자, 이것은 매우 일반적인 것입니다 요약하고 이것으로 끝내자

즉, 측정 기준이나 측정 방법이 도움이 될 수 있습니다 귀하의 조직이 얼마나 잘 작동하고 있는지 그리고 얼마나 잘 도달했는지에 대한 인식 목표 성공을 정의하고 진행 상황을 측정하는 데 사용할 수있는 여러 가지 방법이 있습니다 그 일을 향해 그러나 트릭은 노력의 균형을 동시에 여러 목표에 도달하면 최적화와 같은 필요성이 발생할 수 있습니다

데이터 소싱 및 측정에 관해 이야기 할 때 매우 중요한 한 가지 문제는 측정의 정확성 여기에있는 아이디어는 버려야 할 필요가 없다는 것입니다 모든 당신의 아이디어; 당신은 노력을 낭비하고 싶지 않습니다 매우 정량적으로 이것을하는 한 가지 방법 패션은 분류 표를 만드는 것입니다 그럼,이게 보이는거야, 너 얘기하는거야

예를 들어 긍정적 인 결과, 부정적인 결과 등 그리고 실제로 여기 상단에 여기의 가운데 두 열은 이벤트가 존재하는지 여부, 집안에 불이 났는지, 판매가 발생했는지, 세금 탈퇴자가 있든간에

특정 상황이 실제로 일어나고 있는지 여부입니다 여기 왼쪽에는 테스트 또는 표시기는 그 일이 일어나고 있거나 일어나지 않았 음을 암시합니다 그리고 너는 진실한 긍정의이 조합이 있으십시오; 테스트에서 문제가 발생했다는 말을 듣고 실제로, 그리고 거짓 긍정; 시험에서 그 일이 일어난다 고 말하면서, 그러나 그렇지 않다 그 다음에 그 참된 네거티브 아래서, 테스트에서 그것이 일어나지 않는다고 말하는 것이 맞습니다 그 다음에 테스트에서 아무 일도 없다고 말하는 위조 방지책이 있지만 사실 사건 발생

그런 다음 열 합계, 총 수를 계산하기 시작합니다 이벤트가 있거나 없을 경우, 테스트 결과에 대한 행이 합계됩니다 자, 이걸로 당신이 얻는 것은 4 가지 종류의 정확도, 혹은 정말로 4 가지 다른 양화 방식입니다 정확성 그리고 그들은이 이름들 : 민감성, 특이성, 양성 예측도, 음성 예측도 나는 어떻게 각각 아주 간단하게 보여줄 것인가? 그들의 작품

감도는 이런 식으로 표현할 수 있습니다 화재가 발생하면 경보가 울립니다 반지? 당신은 그 일이 일어나길 원합니다 그래서 진정한 긍정적 인면을 살펴 보는 것입니다 총 알람 수로 나눈 값입니다

따라서 테스트 긍정적 인 것은 알람이 있음을 의미합니다 사건은 화재가 있음을 의미합니다 언제든지 알람이 울리기를 원합니다 화재 반면에 특이성은 이러한면의 일종입니다

존재하지 않는 경우 화재, 알람은 조용하게 유지됩니까? 이것은 당신이 진실의 비율을보고있는 곳입니다 화재가없고 화재 경보가 울리지 않는 총 결석 이벤트 제외 그게 네가 원하는거야 자, 그들은 열을보고 있습니다 옆으로 갈 수도 있습니다 행

따라서, 첫 번째 것은 긍정적 인 예측 가치이며, 종종 PPV로 약칭되며, 우리는 순서를 조금 뒤집습니다 알람이 울리면 거기에있었습니다 화재? 이제 진정한 긍정적 인면을보고 총 수로 나눕니다 긍정의 총 긍정 수는 경보가 울릴 때마다 발생합니다

진정한 긍정은 불이 났기 때문에 그리고 부정적인 예측 가치, 또는 NPV는 경고음이 울리지 않는다고 말하며, 실제로 화재가 없다는 것을 의미합니까? 글쎄, 여기 네가 참된 네거티브를보고있어 총 네가티브로 나눠서, 그것이 울리지 않는 시간 그리고 다시, 당신은 원합니다 이를 극대화하여 진정한 네거티브가 모든 네거티브를 설명합니다

진정한 긍정적 인 요소가 모든 긍정적 인 요소를 설명하기를 원한다 자, 이 모든 수치는 0 %에서 100 %까지 올라갑니다 아이디어는 각각을 최대화하는 것입니다 당신이 할 수있는만큼 하나 요약하면이 테이블에서 4 가지 정확도를 얻었습니다

각각 다른 초점 그러나 동일한 전반적인 목표, 당신은 진실을 확인하기를 원합니다 긍정과 참된 부정적 결과를 피하고 위양성과 위양성을 피하십시오 과 이것은 측정의 정확성에 대한 지수를 실제로 나타내는 방법 중 하나입니다 이제 데이터 소싱은 매우 정량적 인 주제처럼 보일 수 있습니다

특히 우리가 이야기 할 때 측정 그러나 나는 여기서 한 가지 중요한 것을 측정하고 싶습니다 그것은 사회적인 맥락입니다 측정 여기에있는 아이디어는 사람들이 사람들이라는 것입니다

자신의 목표를 달성하고, 그들 자신의 길을 가고 있습니다 그리고 우리 모두는 우리 자신의 생각과 감정을 가지고 있습니다 서로 항상 일치하는 것은 아니며 측정에 영향을 줄 수 있습니다 그래서, 예를 들어, 목표를 정의하려고 할 때 목표를 극대화하려고 할 때 예를 들어 비즈니스 모델과 같은 것을보고 싶습니다 조직의 사업 모델, 그들이 사업을 수행하는 방식, 돈을 버는 방식, 그것의 정체성과 그 이유

그리고 만약 당신이 추천하고 그것과 상반된다면 실제로 자신의 핵심 정체성에 대한 위협으로 인식 될 수있는 비즈니스 모델에 이르기까지, 사람들은 그 상황에서 놀란다 또한, 제한, 그래서 예를 들어, 조직적으로나 문화적 으로든 법률, 정책 및 관습이있을 수 있습니다 목표를 달성 할 수있는 방법을 제한 할 수 있습니다 이제는 대부분이 이해가됩니다 아이디어는 당신이 원하는 어떤 것도 할 수 없다는 것입니다

당신은 이러한 제약이 필요합니다 그리고 언제 당신은 당신의 추천을합니다, 아마 당신이 그들 인 것처럼 창조적으로 일할 것입니다 여전히 법적으로나 윤리적으로 행동하지만 이러한 제약 사항을 인식 할 필요가 있습니다 다음은 환경입니다 그리고 여기에서 아이디어는 경쟁이 조직간에 발생한다는 것입니다

그 회사는 목표를 달성하려고 노력하고 있지만 회사 B와 경쟁하고 있습니다 그곳에는 조직 내에서의 경쟁이 더욱 심하게 있습니다 이것은 실제로 사무실 정치에 대한 인식입니다 컨설턴트로서 추천을 할 때 당신의 분석에 기초하여, 당신은 조금 축구를 떨어 뜨리는 것이 당신을 이해할 필요가 있습니다 사무실에 들어가면 사물을 한 사람의 직업으로, 어쩌면 해가 될 것입니다

다른 그리고 당신의 권고가 최대한 효과를 발휘하기 위해서 사무실에서 잘 놀아 라 그것은 당신이 만드는 것처럼 당신이 알고 있어야 할 것입니다 당신의 추천 마지막으로 조작 문제가 있습니다 그리고 슬픈 자명 한 사실에 대해서

사람들은 보상 체계, 어떤 보상 체계도 착취 당할 것이며 사람들은 일반적으로 시스템을 게임하게됩니다 이것은 특히 강한 단절이있을 때 발생합니다 당신은 적어도 80 퍼센트를 얻어야합니다 그렇지 않으면 당신은 해고되고 사람들은 무엇이든 할 것입니다 그들의 숫자는 80 % 인 것처럼 보입니다

당신이 볼 때 이것은 엄청 많이 일어난다 임원 보상 시스템을 갖추고 있다면 지분 학교 테스트가 매우 높을 때 많이 보입니다 그것은 엄청난 수의 상황에서 발생합니다 따라서 위험을 인식하고 있어야합니다 착취와 게임

이제 모든 것이 사라 졌다는 것을 생각하지 마십시오 포기하지 마라, 너 여전히 훌륭한 평가를 할 수 있습니다 좋은 통계를 얻을 수 있습니다 당신이 당신의 연구와 연구를 수행함에 따라이 특별한 이슈들과 그들에게 민감합니다 당신이 추천 한대로

요약하면, 사회적 요인이 목표에 영향을 미치고 당신이 그 목표를 달성하는 방법 제한과 결과가 있습니다 목표 및 방법, 실제로, 목표가 무엇인지, 그리고 어떻게해야하는지에 대한 조언을 할 때 이러한 목표에 도달하려면 측정 항목 및 방법과 관련하여 상황이 어떻게 진행되는지에 민감해야합니다 목표를 달성하기 위해 행동을 조정할 것입니다 그렇게하면 더 많은 것을 만들 수 있습니다

자신이 의도 한 방식대로 구현 될 가능성이 높고 정확하게 예측할 가능성이 높습니다 당신의 목표로 일어날 수 있습니다 데이터 소싱과 관련하여 분명히 가장 중요한 것은 것은 데이터를 얻는 것입니다 그러나 적어도 이론적으로는이를 수행하는 가장 쉬운 방법은 기존 데이터 책장으로 가서 가지고있는 데이터를 가져 오는 것으로 생각하십시오

바로 옆에있다 이제는 몇 가지 다른 방법이 있습니다 사내 데이터를 얻을 수 있으며, 공개 된 데이터를 얻을 수 있으며 타사 데이터를 얻을 수 있습니다 생각해 볼 수있는 또 다른 좋은 방법은 독점적, 공개 및 구매 데이터; 세 번은 그 소리를 들었습니다 얘기하자

이들 각각에 대해 좀 더 자세히 설명합니다 따라서 사내 데이터는 이미 귀하의 조직에서 그것에 대해 좋은 점은 정말 빠르고 쉽습니다 이 형식은 컴퓨터의 소프트웨어 종류에 적합 할 수 있습니다 당신이 사용하고 있습니다

운이 좋다면 좋은 문서가 있습니다 사내 사람들끼리 함께 던지기 때문에 조심해야합니다 품질 관리 문제가 있습니다 이제는 모든 종류의 데이터에서 마찬가지입니다 당신은 사정을 알 필요가 없기 때문에 사내에서주의를 기울여야합니다

사람들이 데이터를 수집하고 얼마나 많은 관심을 지불했는지에 대한 정보를 제공합니다 제한 사항도 있습니다 사내에있는 동안 일부 데이터가있을 수 있습니다 사용이 허용되지 않거나 결과를 게시하거나 공유하지 못할 수 있습니다 다른 사람들과 결과

그래서, 이것들은 여러분이 생각할 때 여러분이 생각할 필요가있는 것들입니다 사내 데이터를 사용하려면 어떻게하면 데이터 과학을 용이하게 할 수 있을까요? 프로젝트 특히, 몇 가지 장단점이 있습니다 사내 데이터는 잠재적으로 빠르며, 쉽고 무료 잘만되면 표준화되어 있습니다

어쩌면 원래의 팀도 이 연구는 아직 거기에 있습니다 데이터에 식별자를 추가하면 쉽게 사용할 수 있습니다 당신이 개별적인 수준의 분석을 할 수 있습니다 그러나 사기 측면에서 사내 데이터 단순히 존재하지 않을 수도 있고, 아마도 거기에 있지 않을 수도 있습니다 또는 설명서가 적합하지 않을 수 있습니다

물론 품질이 불확실 할 수도 있습니다 항상 사실이지만, 당신이 가지고있을 수 있습니다 사내 데이터를 사용할 때보다주의를 기울여야합니다 이제 다른 선택은 열려 있습니다 데이터는 도서관에 가서 뭔가를 얻는 것과 같습니다

이것은 자유롭게 준비된 데이터입니다 이용 가능하며, 정부 데이터 및 기업 데이터 및 과학 데이터와 같은 것으로 구성됩니다 여러 출처에서 내가 좋아하는 공개 데이터 소스를 보여 드리겠습니다 그래서 당신은 그들이 어디에 있는지, 그리고 그것이 존재한다는 것을 압니다

아마도, 최고의 하나는 여기 datagov입니다 미국 이것이 바로 미국 정부의 공개 자료가있는 곳입니다 또는 주 수준 1 일 수 있습니다 예를 들어 유타에 있는데 데이터가 있습니다

더 많은 지역 정보를 얻을 수있는 훌륭한 원천입니다 유럽에 계시다면 open-dataeuropaeu, 유럽 ​​연합은 데이터 포털을 엽니 다 그리고 주요 비영리 단체가 있습니다

UN은 통계 및 모니터링 데이터에 대해 uniceforg/statistics를 보유하고 있습니다 세계 보건기구에는 whoint/gho의 세계 보건 전망대가 있습니다 그리고 거기에 퓨 리서치 (Pew Research)와 같은 공공의 이익을 위해 일하는 사기업 센터는 많은 데이터 세트를 공유하고 뉴욕 타임즈는이를 가능하게합니다 API를 사용하여 거대한 양의 데이터를 대량으로 액세스 할 수 있습니다

시간 범위 그리고 두 개의 어머니로드 중 googlecom에 공개 된 Google이 있습니다 훌륭한 데이터입니다 그리고 aws

amazoncom/datasets의 아마존은 엄청난 것을 가지고 있습니다 데이터 세트 따라서 크기가 5 테라 바이트와 같은 데이터 세트가 필요하면 그것을 얻기 위해 갈 곳 자, 이런 종류의 공개를 사용하는 것에 대한 찬반 양론이 있습니다

데이터 첫째, 수백만 달러의 비용이 소요되는 매우 가치있는 데이터 세트를 얻을 수 있다는 것입니다 모여서 처리해야합니다 그리고 매우 다양한 주제와 시간을 얻을 수 있습니다 사람들의 집단 등등

그리고 종종 데이터의 형식이 잘 지정되고 잘 문서화되어 있습니다 그러나 몇 가지 단점이 있습니다 때때로 편향된 샘플이 있습니다 예를 들어, 당신은 오직 인터넷에 접속할 수있는 사람들을 만날 수 있습니다 때때로 데이터의 의미가 명확하지 않거나 정확히 원하는 것을 의미하지는 않습니다

잠재적 인 문제는 분석을 공유해야 할 수도 있으며, 독점적 인 연구를하고 있습니다 글쎄, 대신 열려야 할 것입니다 일부 고객과의 압박을 만들 수 있습니다 마지막으로 개인 정보 보호 문제가 있습니다 기밀성 및 공용 데이터에서 일반적으로 식별자가 거기에서 당신은 더 큰 전체 측정 레벨에서 작업해야 할 것입니다

다른 옵션은 제 3 자의 데이터를 사용하는 것입니다 이러한 서비스는 Data as a Service 또는 DaaS 데이터 중개자라고 부를 수도 있습니다 데이터 중개인에 관한 한 다양한 주제에 대한 엄청난 양의 데이터를 제공하며, 시간과 노력을 들여서 실제로 처리 할 수 ​​있습니다 그리고 그것은 포함 할 수 있습니다

소비자 행동 및 선호와 같은 것들, 연락처 정보를 얻을 수있는 마케팅 정체성과 재정을 수행하면 많은 것들이 있습니다 많은 데이터가 있습니다 브로커 주변, 여기 몇 가지 있습니다 Acxiom은 아마도 마케팅 측면에서 가장 큰 제품 일 것입니다 데이터

주로 미디어 소비를위한 데이터를 제공하는 Nielsen도 있습니다 과 또 다른 조직 인 Datasift가 있습니다 그리고 꽤 예쁘다 다양한 선택이 가능하지만, 큰 것들이 있습니다 이제, 데이터 중개인, 거기에 몇 가지 찬성과 몇 가지 단점이 있습니다

찬성하는 사람이 먼저 있습니다 많은 시간과 노력을 절약 할 수 있습니다 또한 개별 레벨 데이터를 제공 할 수 있습니다 공개 된 데이터를 얻기가 어려울 수 있습니다 공개 데이터는 일반적으로 커뮤니티 수준입니다

그들은 할 수있다 특정 소비자에 대한 정보를 제공합니다 그들은 당신에게 요약과 추론을 줄 수 있습니다 신용 점수 및 결혼 상태와 같은 것들에 관해서 어쩌면 사람이 도박을 하든지간에 또는 담배를 피우십시오 이제, 죄수는 1 호기가 정말 비쌀 수 있습니다

거대한 봉사; 그것은 많은 이익을 제공하고 이에 따라 가격이 책정됩니다 또한, 당신은 여전히 그것의 유효성을 검사 할 필요가있다, 당신은 그것이 당신이 생각하는 것을 의미한다는 것을 다시 한번 확인해야한다 그리고 그것이 당신이 원하는 것과 함께 작동한다는 것입니다 그리고 아마도 여기서 가장 중요한 점은 제 3 자 데이터의 사용은 많은 사람들에게 불쾌감을 줄 수 있으므로 당신이 선택하는 것처럼 요약하면, 기존 데이터를 소싱하는 데이터가 간다면 분명히 데이터 과학은 데이터를 필요로하며 데이터 소스의 3 가지 PS가 있습니다

독점적 인 공공 및 구매 그러나 당신이 사용하는 소스가 무엇이든 관계없이주의를 기울여야합니다 품질 및 사용자의 편의를 위해 데이터의 의미와 유용성 프로젝트 데이터 소싱의 경우 데이터를 가져 오는 가장 좋은 방법은 API라고하는 것 자, 저는 이것을 Prufrock 's의 디지털 버전으로 생각합니다

인어들 TS 엘리어트의 알프레드 프리프록 (Alfred Prufrock)의 러브 송에 대해 잘 알고 있다면 "나는 인어가 각각 노래하는 것을 들었습니다"라고 TS 엘리어트가 말했습니다 그리고 난 좋아 이를 위해 "API가 각자 노래하는 것을 들었습니다"라고 말하면됩니다 이제 더 구체적으로 API에 대해 이야기 할 때, 우리가 말하는 것은 무엇인가입니다

응용 프로그램 프로그래밍 인터페이스 (Application Programming Interface)라고 불리는이 프로그램은 서로 이야기하기 데이터 과학 측면에서 가장 중요한 용도는 당신은 웹 데이터를 얻을 수 있습니다 그것은 당신의 프로그램이 웹으로 직접 갈 수있게 해줍니다 데이터, 마치 로컬 데이터 인 것처럼 다시 가져와야합니다 정말 멋지 네요

의회 이제 데이터 과학을위한 API의 가장 일반적인 버전을 REST API라고합니다 그 Representational State Transfer (대표 상태 전송)를 나타냅니다 그것은 다음과 같은 소프트웨어 아키텍처 스타일입니다 월드 와이드 웹을 사용하면 HTTP를 통해 웹 페이지의 데이터에 액세스 할 수 있습니다

즉, 하이퍼 텍스트입니다 전송 프로토콜 그들은 우리가 알고있는 것처럼 웹을 운영합니다 그리고 다운로드 할 때 일반적으로 자바 스크립트 객체 표기법 (Javascript Object Notation)의 약자 인 JSON 형식으로 가져 오는 데이터입니다 그것에 대한 좋은 점은 사람이 읽을 수 있지만 기계를 사용하는 것이 더 좋습니다

그런 다음 해당 정보를 가져와 다른 프로그램으로 직접 보낼 수 있습니다 과 REST API에 대한 좋은 점은 언어 불가지론 (language agnostic)이라고하는 것입니다 모든 프로그래밍 언어는 REST API를 호출하고, 웹에서 데이터를 가져올 수 있으며, 무엇이든 할 수 있습니다 그것과 함께해야합니다 이제는 흔히 볼 수있는 몇 가지 API가 있습니다

그만큼 첫 번째는 소셜 API라고하는 것입니다 이들은 소셜 네트워크와 연결하는 방법입니다 예를 들어 가장 일반적인 것은 Facebook입니다 Twitter도 있습니다 Google 토크가 사용되었습니다

큰 하나, FourSquare, 그리고 SoundCloud 이것들은 인기있는 것들 그리고 비주얼 API라고 불리는 것이 있습니다 비주얼 데이터, 예를 들어, 구글 맵스가 가장 보편적이지만 YouTube는 무엇인가입니다 특정 웹 사이트 또는 날씨를 얻기위한 AccuWeather에서 YouTube에 액세스합니다

정보 사진은 Pinterest, 사진은 Flickr 그래서, 이것들은 정말로 공통 API를 사용하고 컴퓨터가 이러한 서비스에서 데이터를 가져 오도록 프로그램 할 수 있습니다 사이트를 만들고 자신의 웹 사이트 또는 여기에 자신의 데이터 분석에 통합하십시오 지금, 당신이 이것을 할 수있는 몇 가지 다른 방법이 있습니다 당신은 통계적 프로그래밍 인 R로 프로그램 할 수 있습니다

언어, 당신은 파이썬에서 그것을 할 수 있습니다, 당신은 심지어 아주 기본적인 BASH 명령에서 그것을 사용할 수 있습니다 라인 인터페이스, 그리고 다른 응용 프로그램 톤이 있습니다 기본적으로 액세스 할 수있는 항목이 있습니다 API를 한 방법 또는 다른 이제 R에서 어떻게 작동하는지 보여 드리고자합니다 RStudio에서 스크립트를 열어서 아주 기본적인 정보를 얻으려고합니다

웹 페이지에서 RStudio로 가서 어떻게 작동하는지 보여 드리겠습니다 대본을 열어 보자 RStudio에서는 여기에서 일부 데이터 소싱을 수행 할 수 있습니다 자, 이제 막 사용할거야

JSON Lite라는 패키지를로드하고 그 다음에 몇 가지 웹 사이트 나는 포뮬러 원 자동차 경주에서 역사적인 데이터를 얻으려고 갈거야 Ergastcom에서 가져올 수 있습니다 이제이 페이지로 가면 곧장 갈 수 있습니다

지금 당장 내 브라우저에 그리고 이것이 바로 그 모습입니다 API 문서를 제공하며, 그래서 API를 위해 당신이하고있는 일은 웹 주소와 그 웹에 들어가는 것입니까? 주소에는 원하는 정보가 포함됩니다 여기 R로 돌아가서 잠깐 JSON 형식으로 1957 년 경주에 대한 정보를 얻으려는 경우이 주소로 이동합니다

나는 잠시 그 ​​것으로 건너 뛸 수 있습니다 그리고 여러분이 보게되는 것은 큰 긴 엉망의 일종입니다 여기에 있지만 모든 레이블이 붙어 있으며 여기에서 무슨 일이 일어나는지 컴퓨터에 분명합니다 하자 R로 돌아 가라 그러면 내가 할 일은 URL을 객체에 저장하는 것이다

여기, R에서, 그리고 JSON의 명령을 사용하여 해당 URL을 읽고 저장합니다 그것을 R에 넣으십시오 그리고 나는 그것을 볼 수 있도록 확대 할 것입니다 무슨 일이 있었는지 나는 이런 종류의 텍스트 혼란을 겪었습니다

R 그리고 그 객체의 구조를 얻으려고합니다 그래서 이것을 할 것입니다 바로 여기에서 목록이라는 것을 알 수 있으며 모든 변수의 이름을 제공합니다 각 목록 내에서 그리고 내가 할 일은 다음과 같이 변환 할 것입니다

데이터 프레임에 나열하십시오 나는 목록을 살펴보고 내가 원했던 정보가 어디 있는지 발견했다 위치, 당신은이 큰 긴 진술을 여기에 사용해야한다, 그것은 나에게 운전자의 이름을 줄 것이다 다시 한 번 확대 해 보겠습니다 저기 그들이있어

그리고 난 그 칼럼 만 가져올거야 데이터 프레임의 해당 비트에 대한 이름 그래서 저는 여기에 여섯 가지 변수가 있습니다 그리고 나서 내가해야 할 일은 처음 다섯 가지 사례 만 골라서 일부 변수를 선택하여 다른 순서로 넣을 것입니다 그리고 내가 그렇게 할 때, 이것이 내가 얻는 것입니다

나는 그것을 다시 확대 할 것이다 그리고 처음 다섯 명의 사람들이 1957 년에 뽑은이 데이터 세트는 후안 판지오 (Juan Fangio)입니다 운전사, 그리고 그 해에 경쟁 한 다른 사람들 그래서 내가 한 일은 R에서이 API 호출을 사용하여 매우 간단한 작업 이었지만 웹 페이지에서 데이터를 가져올 수있었습니다 구조화 된 형식으로 작성하고 매우 간단한 분석을 수행합니다

그리고 우리가 한 일을 요약 해 봅시다 이 모든 것을 배웠습니다 우선, API는 웹 데이터로 작업하기가 정말 쉽습니다 구조체를 사용하여 호출 한 다음 프로그램에 직접 입력합니다 너 분석 해봐

그리고 그들은 데이터를 얻고 시작하는 가장 좋은 방법 중 하나입니다 데이터 과학 데이터를 검색 할 때 데이터를 가져 오는 또 다른 좋은 방법은 긁어 모으기 이것이 의미하는 것은 웹 페이지에서 정보를 끌어내는 것입니다 나는 언제 그것을 생각하고 싶은가? 데이터가 공개 상태로 숨어 있습니다

거기에 있습니다, 당신은 그것을 볼 수 있습니다 그러나 쉽고 즉각적인 것은 아닙니다 그 데이터를 얻는 방법 이제 스크래핑을 다루면 몇 가지 데이터를 얻을 수 있습니다 다른 형식

웹 페이지에서 HTML 텍스트를 가져올 수 있으며 HTML 페이지를 웹 페이지에 나타나는 행과 열 PDF에서 데이터를 스크래핑 할 수 있습니다 이미지와 비디오 및 오디오의 모든 종류의 데이터에서 데이터를 스크랩합니다 이제, 우리는 우리가 다른 말을하기 전에 매우 중요한 자격 : 저작권에주의를 기울이십시오 프라이버시

무언가가 웹상에 있기 때문에, 당신이 끌어 당길 수 있다는 것을 의미하지는 않습니다 그것 정보가 저작권으로 보호되므로 여기 예제를 사용하면 이것은 공개적으로 사용할 수있는 물건이며, 작업을 수행 할 때도 동일한 작업을 수행해야합니다 당신 자신의 분석 이제 데이터를 다듬 으려면 두 가지 방법이 있습니다

번호 하나는이를 위해 개발 된 앱을 사용하는 것입니다 예를 들어, importio는 다음 중 하나입니다 내가 좋아하는 것들 그것은 웹 페이지와 그 주소이며, 다운로드 가능한 앱입니다

ScraperWiki도 있습니다 Tabula이라는 응용 프로그램이 있습니다 Google 스프레드 시트 (초당 시연 예정) 및 Excel 또는, 원하지 않으면 앱을 사용하거나 앱이 실제로 당신을 그렇게 할 수없는 것을하려는 경우 스크레이퍼 코드 R, Python, Bash 또는 Java로 직접 만들거나 PHP

자, 이제 어떻게 할 것인가? 웹 페이지 HTML 텍스트를 찾고 있다면, 구조화 된 구조를 풀 (pull)해야합니다 브라우저에서 독자보기가 작동하는 것과 유사한 웹 페이지의 텍스트 HTML 태그를 사용합니다 웹 페이지에서 중요한 정보를 확인하십시오 그래서 시체와 같은 것이 있습니다

헤더 1에는 h1, 단락에는 p, 꺽쇠 괄호가 사용됩니다 정보를 얻을 수도 있습니다 HTML 테이블에서 이것은 행과 열의 실제 테이블이지만 내가 보여주고 있습니다 이것은 또한 테이블과 같은 HTML 테이블 태그를 사용하고 테이블 행에 대해서는 tr, 테이블 행에 대해서는 tr, 테이블에 대해서는 td를 사용합니다 데이터, 그것은 셀입니다

트릭은이 작업을 수행 할 때 테이블 번호와 때때로 시행 착오를 통해 그것을 찾아야 만합니다 내가 한 가지 예를 들자 어떻게 작동하는지 Iron Chef America Competition에서 위키 백과 페이지를 살펴 보겠습니다 나는 지금 웹에 가서 그걸 보여줄거야

그래서, 여기 우리는 위키피디아에 있습니다 철 요리사 미국 그리고 당신이 조금 아래로 내려 가면, 우리는 여기 텍스트의 무리, 우리는 목차를 가지고있다, 그리고 우리는 여기에 내려와, 우리는 승자를 표시하는 테이블, 승자에 대한 통계가 있어야합니다 우리가 원한다고 가정 해 봅시다 분석을 위해이 웹 페이지에서 다른 프로그램으로 끌어와보십시오

글쎄, 극도로 Google 스프레드 시트로이를 쉽게 수행 할 수 있습니다 Google 시트를 열면됩니다 Google 시트의 A1 셀에이 공식을 붙여 넣습니다 그것은 IMPORTHTML입니다 웹 페이지를주고 테이블을 가져오고 있다고 말하면, 따옴표 안에 물건들, 그리고 테이블에 대한 색인 번호

나는 조금 주위를 찌를 필요가 있었다 이 숫자는 표 2였습니다 Google 스프레드 시트로 이동하여 이 작품 여기에 Google 시트가 있으며 지금은 아무 것도 없습니다 하지만 시계 이; 내가이 세포에 이르면 그 정보에 모든 것들을 붙여 넣기 만하면된다

마술처럼 일종의 시트에 전달되어 매우 쉽게 처리 할 수 ​​있습니다 이제 예를 들어 이것을 CSV 파일로 저장하여 다른 프로그램에 넣을 수 있습니다 다양한 옵션 그래서 이것은 웹 페이지에서 데이터를 긁어 모으는 한 가지 방법입니다 API를 사용했지만 정보를 얻기 위해 아주 단순한 하나의 링크 명령을 사용했습니다

자, 그 HTML 표였습니다 또한 PDF에서 데이터를 스크래핑 할 수도 있습니다 그것이 맞는지 당신은 알고 있어야합니다 네이티브 PDF, 텍스트 PDF 또는 스캔 또는 이미징 PDF라고합니다 그리고 그것으로 무엇을 하는가? 네이티브 PDF의 경우 텍스트 요소를 찾습니다

다시 이것들은 이것이 코드임을 나타내는 코드와 같습니다 본문 래스터 이미지, 픽셀 이미지 또는 벡터를 처리 할 수 ​​있습니다 선을 사용하면 많은 상황에서 무한히 확장 할 수 있습니다 그리고 PDF에서, 표 형식의 데이터를 처리 할 수는 있지만, 아마도 Scraper와 같은 전문 프로그램을 사용해야 할 것입니다

Wiki 또는 Tabula를 사용하십시오 마지막으로 이미지 및 비디오와 같은 미디어 및 오디오 이미지를 얻는 것은 쉽습니다 당신은 많은 다른 방법으로 그들을 다운로드 할 수 있습니다 그런 다음 데이터를 읽으려는 경우, 예를 들어 국가, 당신은 그것을 통해 갈 수 있지만 아마도 당신이 프로그램을 작성해야 루프 이미지를 통해 픽셀 단위로 데이터를 읽어 들이고 숫자로 인코딩합니다

통계 프로그램 자, 저의 간단한 요약과 그것을 요약 해 보겠습니다 우선, 가져 오려고하는 데이터에 기존 API가없는 경우 스크래핑을 시도 할 수 있습니다 R이나 Python과 같은 언어로 코드를 작성할 수 있습니다 그러나, 당신이 무엇을 하든지간에, 저작권 및 개인 정보 보호 문제에 민감하므로 더운물에 빠져들지는 않지만 대신에 귀하 또는 귀하의 고객에게 유용 할 수있는 분석을합니다

다음 데이터 소싱의 단계는 데이터를 만드는 것입니다 그리고 구체적으로, 우리는 새로운 데이터 나는 이것에 대해 생각하고 싶다 당신은 손을 잡고있다 그리고 당신은 "데이터를 얻고있다

de novo "라는 새로운 데이터가 필요합니다 따라서 분석에 필요한 데이터를 찾을 수 없습니까? 간단한 해결책은, 너 자신하십시오 그리고 우리는 몇 가지 일반적인 전략들에 대해서 이야기 할 것입니다 그 일을하는 데 사용됩니다 이제 이러한 전략은 몇 가지 측면에서 다양합니다

첫째로 역할 당신은 수동적이며 이미 일어난 일을 단순히 관찰하고 있습니까, 아니면 당신입니까? 데이터를 얻기 위해 상황을 만드는 데 중요한 역할을하는 곳은 어디입니까? 그리고 거기에 "Q / Q 질문", 즉 양적, 숫자, 데이터 또는 정성적인 데이터를 얻으려고합니까? 보통 텍스트, 단락, 문장을 의미합니다 사진, 비디오, 오디오와 같은 것들이 있습니까? 그리고 어떻게 할거 니? 자료? 온라인으로 하시겠습니까, 아니면 직접 방문하길 원하십니까? 자, 여기있다 이것 이외의 다른 선택 사항들도 있지만 이것들은 그 방법의 큰 묘사자들 중 일부입니다 언제 당신은 그것들을 본다, 당신은 가능한 몇 가지 옵션을 얻는다

번호 하나는 인터뷰이고, 나는 그것들에 대해 더 많이 말하십시오 또 하나는 설문 조사입니다 세 번째는 카드 정렬입니다 그리고 네 번째 실제로 실험을 두 종류의 범주로 나누고 싶지만 하나는 실험입니다 첫 번째는 실험실 실험이며, 이는 여러분이 형성하는 직접적인 프로젝트입니다

참여가 어떻게 변하는지를 보는 방법으로서 참가자의 정보 또는 경험 그들의 반응 반드시 참여자라는 의미는 아니지만 그 상황 그리고 A / B 테스트도 있습니다 자동 또는 온라인 테스트입니다 웹 페이지의 유사 콘텐츠가 더 많습니다

그것은 아주 단순한 종류의 실험입니다 사실 웹 사이트 최적화에 매우 유용합니다 요컨대,이 짧은 소개에서 필요한 것을 정확히 얻을 수 있는지 확인하십시오 질문에 대답하는 데 필요한 데이터를 얻으십시오 그리고 어딘가에서 그것을 찾을 수 없다면, 그것을 만드십시오

그리고 언제나처럼, 당신은 가능한 많은 것을 가지고 있습니다 방법 각각에는 그들의 자신의 힘 및 그들의 자신의 타협이있다 그리고 우리는 이야기 할 것입니다 다음 섹션에서 각각에 대해 설명합니다 데이터 소싱의 첫 번째 방법은 내가 이야기하고 싶은 새로운 데이터를 만드는 것은 인터뷰입니다

그게 아니라 가장 일반적인 것이지만 가장 기본적인 문제를 해결하기 위해해야 ​​할 일이기 때문입니다 지금, 기본적으로 인터뷰는 다른 사람이나 그룹과의 대화 일뿐입니다 사람들의 근본적인 질문은 조사를하는 것과는 대조적으로 인터뷰를하는 이유입니다 또는 다른 것? 음, 그럴만한 이유가 있습니다

1 번 : 일하고 있어요 새로운 주제로 사람들의 반응이 무엇인지, 어떻게 반응하는지 등을 알지 못합니다 과 그래서 당신은 무언가를 매우 개방적으로 필요로합니다 2 번 : 새로운 잠재 고객과 작업하고 있습니다 당신은 그들이 무엇을하려고하는지에 대해 그들이 어떻게 반응 할 것인지를 모른다

번호 3 : 현재 상황에서 어떤 일이 진행되고있어 더 이상 작동하지 않으며 무슨 일이 일어나고 있는지 찾아야하며, 개선 할 방법을 찾아야합니다 개방형 정보 당신이 과거에 얻은 곳은 기존 범주이고 경계는 가장 유용한 것 중 하나가 될 수 있습니다 해당 데이터를 가져 오는 방법 당신이 그것을 다른 방식으로 쓰고 싶다면 인터뷰를 원한다 응답을 제한하고 싶지 않을 때 이제 면접에 관해서, 당신은 하나의 매우 기본적인 선택입니다 그리고 그것은 당신이 구조화 된 인터뷰를하는지 여부입니다

그리고 구조화 된 인터뷰, 당신은 미리 결정된 질문들을 가지고 있으며, 모두가 똑같은 것을 얻습니다 같은 순서로 질문한다 응답이 많아도 일관성을 유지할 수 있습니다 개방적이다 그런 다음 구조화되지 않은 인터뷰를 수행 할 수도 있습니다

이 당신이 면접관과 당신이하는 사람인 대화와 훨씬 더 가깝습니다 말하기 – 당신의 질문은 그들의 대답에 대한 응답으로 발생합니다 결과적으로, 구조화되지 않은 인터뷰는 당신이 이야기하는 사람마다 다를 수 있습니다 또한 인터뷰는 대개 직접 해보았지만 놀랍지 만 전화 나 온라인을 통해 할 수 있습니다 이제 인터뷰에 대해 염두에 두어야 할 몇 가지 사항이 있습니다

번호 하나는 시간이다 인터뷰 1 인당 몇 분에서 몇 시간까지 다양합니다 두 번째는 훈련입니다 인터뷰 보통 특별한 훈련이 필요한 특수 기술 자, 질문하는 것은 아닙니다

반드시 어려운 부분 정말 까다로운 부분은 분석입니다 가장 어려운 부분 인터뷰는 주제에 대한 해답을 분석하고 새로운 내용을 추출하는 방법입니다 카테고리 및 추가 연구에 필요한 치수가 포함됩니다 아름다운 것 인터뷰에 관해서는 그들이 결코 예상하지 못한 것을 배울 수 있다는 것입니다 그래서, 요약하면 인터뷰는 새로운 상황이나 새로운 잠재 고객에게 가장 적합합니다

반면에, 그들은 시간이 오래 걸리고 특별한 훈련이 필요합니다 둘 다 면접을 실시하고, 당신이 얻은 높은 질적 데이터를 분석 할 수 있습니다 다음 논리적 데이터 소싱 및 데이터 작성 단계는 설문 조사입니다 이제 이것을 생각해보십시오 : 만약 당신이 뭔가를 알고 싶다면 그냥 물어봐 그것은 쉬운 방법입니다

그리고 특정 상황에서 설문 조사를하고 싶습니다 그만큼 진짜 질문은, 당신이 당신의 화제 및 당신의 경청자를 충분히 예견 할다는 것을입니다 답변? 대답의 범위와 차원 및 범주가 무엇인지 파악하려면 중요한 일이 될 것입니다 그렇게하면 설문 조사가 좋은 접근 방법이 될 수 있습니다 자, 그냥 면접을위한 몇 가지 차원이 있었기 때문에 설문 조사에 대한 몇 가지 차원이 있습니다 당신 폐쇄 형 조사 (closed-ended survey)를 수행 할 수 있습니다

강제 선택이라고도합니다 그것은 객관식을 선택하는 것과 같은 특별한 옵션을 제공합니다 개방형 설문 조사, 모든 사람에게 동일한 질문이 있지만 서면으로 허용합니다 자유 형식의 응답으로 직접 설문 조사를 할 수 있으며 온라인에서도 할 수 있습니다 또는 우편이나 전화를 통해 또는 그러나

그리고 지금은 소프트웨어를 사용하는 것이 매우 일반적입니다 설문 조사 중 온라인 설문 조사에서 가장 일반적으로 사용되는 응용 프로그램 중 일부는 SurveyMonkey 및 Qualtrics입니다 또는 매우 간단한 끝에 Google 설문지가 있고 거기에 간단하고 예쁜 끝이 있습니다 Typeform입니다

더 많은 선택권이 있지만, 이들은 주요 플레이어 중 일부이며 설문 조사 형식으로 온라인 참가자들로부터 데이터를 얻는 방법 자, 좋은 점은 설문 조사는, 그들은 정말 쉽습니다, 그들은 설정하는 것은 매우 쉽고 그들은 정말로 많은 사람들에게 쉽게 보낼 수 있습니다 정말 많은 양의 데이터를 얻을 수 있습니다 에 다른 한편으로, 그들이하기 쉬운 것과 같은 방식으로, 그들은 또한 심하게 행하기 쉽습니다 문제는 당신이 묻는 질문, 모호 할 수있는 질문, 두 배로 묶을 수있는 질문, 로드 할 수 있고 응답 규모가 혼동을 줄 수 있습니다

그래서, 만약 당신이 "나는 결코 이 특별한 방법을 생각하십시오 "그리고 그 사람은 강력하게 동의하지 않는다 정확히 당신이 얻으려고하는 것 그래서, 여러분은 확실히하기 위해 특별한 노력을 기울여야합니다 의미가 명확하고 모호하지 않으며 평가 척도, 사람들이 응답, 매우 명확하고 그들은 그들의 답이 어디로 떨어지는 지 알고 있습니다

어느 것이 우리를 하나가되게한다 사람들이 나쁘게 행동하는 것에 대한 것들을 알고 푸시 설문 조사에 유의하십시오 자, 특히 선거 시간 동안; 우리가 지금 당장하는 것처럼, 밀어 올림 조사는 설문 조사와 마찬가지로, 실제로는 데이터를 얻으려는 편향된 시도이며, 사료 소셜 미디어 캠페인의 경우 또는 98 %의 사람들이 나 한테 동의 해 푸시 설문 조사는 너무 편향된 것이므로 실제로는 한 가지 방법 만 있습니다 질문에 대답해라

이것은 매우 무책임하고 비 윤리적 인 것으로 간주됩니다 연구 관점 그냥 끊어 버려 이제 그 엄청난 위반을 제외하고 연구 윤리의 문제에서 편견을 조심하는 것과 같은 다른 일을 할 필요가있다 말하기, 응답 옵션 및 샘플 선택에서 당신이 정말로 인식하지 못한다면 응답은 어떤 방식 으로든 다른 방식 으로든 밀어 낼 수 있습니다

그것은 일어나고있다 요약하자면, 설문 조사에 대해 말하자 많은 데이터를 얻을 수 있습니다 다른 한편으로, 청중의 가능한 대답에 익숙해야합니다 그래서, 당신은 알다시피, 일종의, 무엇을 기대합니다

그리고 당신이하는 일과 상관없이, 당신은 귀하의 답변이 당신을 대표하는 그룹을 대표 할 수 있도록 이해에 정말로 관심이 있습니다 데이터 소싱의 흥미로운 주제 당신은 데이터를 카드 정렬이라고합니다 자, 이것은 매우 자주 일어나는 것이 아닙니다 학술 연구에서, 그러나 웹 연구에서, 이것은 정말로 중요한 방법이 될 수 있습니다 생각한다 당신이하려고하는 것은 여기서 분자 모델을 만드는 것과 같습니다

사람들의 정신 구조에 대한 정신 모형을 세우려고합니다 더 구체적으로 말하자면, 사람들은 어떻게 정보를 직관적으로 구성합니까? 또한 그것들은 어떻게 물건과 관련이 있는가? 당신이 온라인에서하고 있다고? 이제 기본 절차는 다음과 같이 진행됩니다 작은 주제들로 구성되어 있으며 각 카드를 별도의 카드에 씁니다 그리고 당신은 이것을 물리적으로 할 수 있습니다, 3 장 5 장의 카드와 함께, 또는 디지털로 할 수있는 프로그램이 많이 있습니다 그것의 버전

그러면 당신이하는 일은 응답자 그룹에게이 정보를 제공하는 것입니다 사람들은 그 카드들을 분류합니다 그래서 그들은 서로 비슷한 주제를 섞어서 주제 등등 그리고 그 정보를 가져 가면 그 정보를 얻을 수 있습니다 비평가 데이터를 계산합니다

그것이 거리 또는 다양한 주제의 차이 그러면 원시 데이터를 통해 사물이 구조화되어 있습니다 이제 매우 일반적인 두 종류의 카드 정렬 작업이 있습니다 생성 적이며 평가가 있습니다 생성적인 카드 정렬 작업은 응답자는 자신의 세트를 만들고, 그룹 수를 사용하여 카드 더미를 만듭니다

그들은 좋아한다 그리고 이것은 예를 들어 웹 사이트를 디자인하는 데 사용될 수 있습니다 사람들이 갈 경우 다른 정보 옆에있는 정보를 찾고 있다면 원하는 정보를 얻을 수 있습니다 이를 웹 사이트에 함께 넣어서 어디에서 정보를 얻을 수 있는지 알 수 있습니다 한편, 이미 웹 사이트를 만든 경우 평가 카드 정렬을 할 수 있습니다

이 고정 된 번호 또는 고정 된 이름의 카테고리가있는 곳입니다 예를 들어, 당신의 메뉴를 이미 설정 한 방법 그리고 당신이하는 일은 실제로 사람들이 당신이 만든이 다양한 범주에 카드를 넣으십시오 그것이 확인하는 방법입니다 당신의 계층 적 구조가 사람들에게 의미가 있다는 것

자, 당신이하는 방법, 생성 또는 평가, 당신이 카드 구조를 할 때 당신이 끝내는 것은 흥미로운 종류입니다 Dendrogram이라고 불리는 시각화가 필요합니다 그것은 실제로 가지를 의미합니다 그리고 우리가 가진 것 여기에 실제로는 150 개의 데이터 포인트가 있습니다 피셔 스와 친숙하다면 홍채 데이터, 그게 여기서 벌어지고있는 것입니다 그리고 그것은 왼쪽에있는 하나의 거대한 그룹 그런 다음 조각과 조각으로 조각을 나눠서 여러 가지로 끝낼 때까지 관측, 사실, 결국 개인 차원의 관측

하지만 너는 물건을자를 수있어 2 ~ 3 개의 그룹으로 또는 여기에서 가장 유용한 모든 것을 시각화하는 방법으로 개별 정보 간의 유사성 또는 비 유사성의 전체 집합 네가 사람들을 분류 했어 이제 디지털을 원한다면 아주 빨리 언급 할 것입니다 카드 정렬을 통해 실제 카드를 추적하므로 인생을 무한히 쉬게합니다 정말 어렵습니다

Optimal Workshop 또는 UserZoom 또는 UX Suite와 같은 것을 사용할 수 있습니다 가장 일반적인 선택 사항입니다 이제 우리가 배운 것을 요약 해 보겠습니다 이 매우 간단한 개요에서 카드 정렬에 대해 1 위, 카드 정렬 가능 직관적 인 정보 조직을 계층 적 형식으로 볼 수 있습니다

너와 함께 할 수있어 실제 카드를 사용하거나 똑같은 일을하기 위해 디지털 방식으로 선택할 수도 있습니다 그리고 언제 당신은 실제로이 정보의 계층 적 또는 분 지적 시각화를 얻습니다 구조화되어 서로 관련되어있다 데이터 소싱을 수행 할 때 데이터를 만들고, 때로는 쉬운 방법으로 원하는 것을 얻을 수없는 경우가 있습니다

힘든 길을 취해야 해 그리고 당신은 내가 실험실 실험이라고 부르는 것을 할 수 있습니다 지금 물론, 내가 실험실 실험을 언급 할 때 사람들은 물건을 생각하기 시작합니다 그의 실험실에서 Frankenstein 박사가 있지만 실험실 실험은 이것보다 적습니다 실제로 그들은 조금 더 좋아

제가 경력에서했던 거의 모든 실험은 종이였습니다 잘 조명 된 방에있는 사람들과 연필 하나를 치고 위협적인 것은 아닙니다 실험실 실험을하는 이유는 원인과 결과를 결정하기 때문입니다 그리고 이것은 정보를 얻는 가장 이론적으로 실행 가능한 단일 방법입니다 지금, 실험을 실험으로 만드는 것은 연구자가 적극적인 역할을한다는 사실입니다

조작 된 실험에서 이제 사람들은 조작을 들었을 때 조금 정신이 나갔다 당신이 사람들을 강요하고 그들의 마음을 어지럽 혀 있다고 생각하십시오 그게 의미하는 건 당신이 상황을 조작하고있다 당신은 한 그룹에 대해 다른 것을 일으키고 있습니다

사람이나 다른 상황보다 양성 일 뿐이지 만 사람들이 어떻게 다른 유사 콘텐츠에 반응하는지 확인하십시오 자, 당신은 실험을하고 싶어합니다 집중 연구를 원할 것입니다 보통 한 가지 또는 한 가지를 테스트하기 위해 수행됩니다 한 번에 변이

그리고 그것은 일반적으로 가설 중심적입니다 보통 당신은 실험을하지 않습니다 충분한 배경 ​​연구를 해왔다 "나는 사람들이 이런 식으로 반응 할 것을 기대한다 상황과 다른 방향으로이 방법

"이 모든 핵심 구성 요소는 실험 거의 언제나 샘플을 얻은 방법에 상관없이 무작위로 할당됩니다 당신의 연구에서, 당신은 무작위로 그것들을 하나의 조건 또는 다른 조건에 할당합니다 그리고 그들이하는 일 그룹간에 기존의 차이점을 없애는 것이고 그것은 좋은 방법입니다 혼란과 유물 관리 의도하지 않은 차이점과 관련된 것들 데이터에 대한 대체 설명을 제공하는 그룹 간

너가 좋은 무작위를하면 과제와 그 confounds과 유물보다 충분히 큰 그룹의 사람들이 있습니다 기본적으로 최소화됩니다 이제 실험실 실험을 보게 될 곳이 있습니다 이 버전에서는 눈 추적 및 웹 디자인이 있습니다 이것은 당신이해야 할 곳입니다

컴퓨터 앞에 사람들을 데려 와서 그들이있는 곳을 볼 수있는 물건을 꽂으십시오 찾고 그것이 우리가 예를 들어 사람들이 실제로 측면의 광고를 보지 않는다는 것을 안다는 것을 의미합니다 웹 페이지 수 또 다른 매우 일반적인 장소는 의학 및 교육 분야의 연구이며 내 분야, 심리학 그리고이 모든 것에서, 여러분이 발견 한 것은 실험적 연구입니다

원인 및 결과에 대한 신뢰할 수있는 유효한 정보를 제공하는 데있어 가장 중요한 표준으로 간주됩니다 다른 한편으로, 가지고있는 것이 좋은 것이지만, 그것은 비용을 지불합니다 여기에 어떻게 작동하는지 넘버 1, 실험에는 광범위한 전문 교육이 필요합니다 픽업하는 것은 쉬운 일이 아닙니다

두 가지 실험은 대개 시간이 많이 소요됩니다 노동 집약적이다 나는 사람마다 시간이 걸리는 것을 알고있다 그리고 셋째, 실험 매우 비쌀 수 있습니다 그래서, 그것이 의미하는 바는 당신이 가지고있는 것을 확실히하기 위해서입니다

충분한 배경 ​​조사를 마쳤으며 충분한 상황이 필요합니다 이러한 비용을 정당화하기 위해 실제로 신뢰할 수있는 인과 관계 정보를 얻는 것이 중요합니다 실험을 위해서 요컨대 실험실 실험은 일반적으로 인과 관계 또는 인과 관계 평가 그것은 당신이 혼란을 제어 할 수 있기 때문입니다

무작위 반면에, 그것은하기가 어려울 수 있습니다 그러므로 신중하고 신중해야합니다 실험을해야하는지 여부와 실제로 수행 할 방법을 고려할 때 그것 데이터 소싱 및 제작 측면에서 내가 이야기하고 싶은 최종 절차가 하나 있습니다

새 데이터 이것은 실험의 한 형태이며 단순히 A / B 테스트라고 불리우며 극단적입니다 웹 세계에서 흔히 볼 수 있습니다 예를 들어, 아마존 닷컴의 스크린 샷을 간신히 움켜 쥐었습니다 홈페이지에서이 다양한 요소를 홈페이지에 올렸습니다

내가이 일을했을 때,이 여자는 실제로 애니메이션 GIF이기 때문에, 그녀는 주위를 움직인다 그 종류가 이상했다 나는 전에 그것을 본 적이 없다 하지만이 문제는 전체 레이아웃, 사물의 구성 방법 및 사물의 위치 결정 방법 결정 Amazon의 A / B 테스트 변형 다음은 작동 방식입니다 웹 페이지의 경우, 어떤 요소가 헤드 라인인지 또는 색이 무엇인지 또는 조직이나 방법이 무엇인지 당신은 무언가를하고 여러 버전을 만들 것입니다, 어쩌면 단지 두 버전 A와 버전 B, 왜 A / B 테스트라고 부릅니까? 그런 다음 사람들이 귀하의 웹 페이지를 방문 할 때 무작위로 한 버전이나 다른 버전을 방문하는 이들에게는 자동으로 소프트웨어를 제공합니다

그런 다음 응답에 대한 응답 속도를 비교합니다 내가 너에게 보여줄거야 둘째 그런 다음 충분한 데이터가 확보되면 최상의 버전을 구현할 수 있습니다 단단한 것을 설정하고 다른 것을 계속하십시오

이제 응답률 측면에서 보면 당신이 볼 수있는 많은 다른 결과들이 있습니다 사람이 얼마나 오래 있는지 볼 수 있습니다 원하는 경우 마우스 추적을 실제로 할 수 있습니다 클릭 연결을 볼 수 있으며, 장바구니 값 또는 포기를 볼 수도 있습니다 가능한 많은 결과

모든 A / B 테스트를 통해 웹 사이트 최적화의 일반적인 개념에 기여합니다 귀하의 웹 사이트를 가능한 한 효과적으로 만드십시오 이제 아이디어는 당신이 많이해야 할 일입니다 계속해서 A / B 테스트를 수행 할 수 있습니다 에서 사실, 한 사람이 A / B 테스트가 실제로 의미하는 것이 항상 테스트

귀엽지 만, 개선이 일정한 과정이라는 생각을 해줍니다 이제 일부 소프트웨어에서 A / B 테스트를 수행하려는 경우 가장 일반적인 선택 사항 중 두 가지는 Optimizely Visual Web Optimizer를 나타내는 VWO 등이 있습니다 자, 많은 다른 것들이 가능하지만, 이것들은 특히 일반적이며 데이터를 얻을 때 통계 가설을 사용하게됩니다 차이를 비교하기위한 테스트 또는 실제로 소프트웨어가 자동으로 수행합니다 그러나 대부분의 소프트웨어 패키지가 테스트를 중단하기 때문에 매개 변수를 조정할 수 있습니다

조금 지나치게 빠르면 정보가 그다지 안정적이지 않습니다 하지만, 합계, 여기에 우리가 A / B 테스트에 대해 말할 수있는 것이 있습니다 이것은 웹 사이트 실험의 한 버전입니다 온라인으로 처리되기 때문에 많은 양의 데이터를 매우 빨리 얻을 수 있습니다 그것은 허용한다

당신은 중요한 결과가 무엇이든 귀하의 웹 사이트 디자인을 최적화 할 수 있습니다 또한 일련의 지속적인 평가, 테스트 및 개발을 통해 이루어질 수 있습니다 최대한 많은 사람들에게 가능한 한 효과적으로 원하는 것을 성취하고 있는지 확인하십시오 가능한 한 사람들 데이터 소싱 측면에서 내가 얘기하고 싶다

다음 단계에 대해 이야기하는 것입니다 아마 가장 중요한 것은 아시다시피 그냥 거기 앉아 나는 당신이 가서 이미 가지고있는 것을 보길 원해 일부 열어보기 데이터 소스 도움이된다면 몇 가지 데이터 공급 업체에 문의하십시오

그리고 그 사람들이주지 않으면 프로젝트를 수행하는 데 필요한 것이 무엇인지, 그리고 새로운 데이터를 만드는 것을 고려하십시오 다시, 아이디어 여기 당신이 필요로하고 얻는 것입니다 자신의 프로젝트에 참여해 주셔서 감사합니다 "데이터 과학 코딩"에 오신 것을 환영합니다 나는 바트 풀슨이고 우리가이 일에서 무엇을 할 것인가? 일련의 비디오를 통해 우리는 데이터 과학의 도구를 약간 살펴볼 것입니다

그래서 저는 여러분이 여러분의 도구를 알기를 권유합니다하지만 아마도 그 도구보다 더 중요 할 것입니다 그들의 적절한 장소를 아는 것입니다 지금, 나는 사람들이 데이터 도구에 대해 이야기하고, 마치 데이터와 같은 것으로 이야기합니다 과학처럼, 그들은 같은 세트였습니다

하지만, 만약 당신이 그것을 단지 실제로는 그렇지 않습니다 데이터 도구는 데이터 과학의 한 요소입니다 데이터 과학은 사용하는 도구보다 훨씬 많습니다 그것은 물건을 포함한다 비즈니스 지식처럼, 의미 생성과 해석을 포함합니다

사회적인 요소가 포함되어 있으므로 관련 도구 만이 아닙니다 즉, 적어도 몇 가지 도구가 필요하므로 몇 가지 사항에 대해 이야기하겠습니다 그것이 당신을 위해 잘 작동한다면 당신은 데이터 과학에서 사용할 수 있습니다 시작하는 측면에서, 기본적인 것들 # 1은 스프레드 시트이며, 보편적 인 데이터 도구입니다

그들이 데이터 과학에서 어떻게 중요한 역할을하는지 # 2는 Tableau라고하는 시각화 프로그램입니다 무료 인 Tableau 공개가 있으며 Tableau 데스크톱이 있으며 거기에는 뭔가 Tableau 서버라고 Tableau는 데이터 시각화를위한 멋진 프로그램입니다 저는 대부분의 사람들이 필요한 것을 대다수 제공한다고 확신합니다

과 도구는 아니지만 웹 데이터에 사용되는 형식에 대해 이야기해야합니다 당신은 많은 데이터 과학 작업을 할 때 그것을 탐색 할 수 있어야합니다 그럼 우리는 데이터 과학을위한 필수 도구에 대해 이야기 할 수 있습니다 여기에는 프로그래밍 특히 데이터를위한 언어 R은 범용 프로그래밍 언어 파이썬은 데이터에 잘 적응 해왔다 데이터베이스 언어 속편이나 구조화 된 쿼리 언어 용 SQL

그 이상으로 가고 싶다면 당신이 할 수있는 다른 것들 범용 프로그래밍 언어 C, C ++, Java는 데이터 과학 및 분류의 기초를 형성하기 위해 매우 자주 사용됩니다 높은 수준의 생산 코드는 그것들에도 의존 할 것입니다 명령이 있습니다 라인 인터페이스 언어 인 배시 (Bash)는 매우 일반적으로 조작하기위한 매우 빠른 도구입니다 데이터

그리고 정규 표현식이나 Regex와 같은 종류의 와일드 카드가 슈퍼 커밋됩니다 우리는이 모든 것을 별도의 과목으로 말할 것입니다 그러나 모든 도구를 고려할 때 당신이 사용할 수있는, 80/20 규칙을 잊지 마세요 파레토 원리라고도합니다 그리고 여기 아이디어는 당신이 작은 숫자에서 당신의 벅에 대한 많은 강타를 얻을 것입니다 사물의

여기에 약간의 샘플 그래프를 보여 드리겠습니다 네가 10을 가지고 있다고 상상해 보라 다른 도구와 우리는 A부터 B까지 그들을 부를 것입니다 A는 당신을 위해 많은 일을합니다 B는 조금 않습니다

더 작고 가볍게 테이퍼가되어, 당신은 조금만 할 수있는 많은 툴을 가지고 있습니다 당신이 필요로하는 것들을 이제 개별 효과를 살펴 보지 않고 누적 효과 당신은 도구의 조합으로 얼마나 많은 것을 성취 할 수 있습니까? 도구가 시작된 60 %의 첫 번째 항목과 그 다음에는 20 % B에서 그리고 그것은 올라가고 C와 D에 추가하고 당신은 조금 더 작아지고, 더 작은 조각 그리고 끝날 때까지, 당신은 효과의 100 %를 얻었습니다 열 가지 도구를 결합하여 이것에 대해 중요한 것은, 당신은 가야한다는 것입니다 두 번째 도구, 즉 10 개 중 2 개는 B이고 도구의 20 %는이 도구에서 만들어집니다

예를 들어, 출력의 80 %를 얻었습니다 그래서, 도구의 20 %에서 출력의 80 % 그것은 파레토 원리의 가상의 예입니다 그러나 실생활에서 뭔가를하는 경향이 있다는 것을 알았습니다 그 정도는 좋아 그래서, 모든 것을 반드시 배울 필요는 없습니다

모든 일에서 모든 것을하는 법을 배울 필요가 없습니다 대신에 가장 생산적이며 특히 생산성이 가장 뛰어난 도구입니다 그래서, 요약하자면, 이 세 가지를 말하십시오 숫자 1, 코딩 기능 또는 단순히 데이터 조작 기능 프로그램 및 컴퓨터 코딩은 중요하지만 데이터 과학은 그것에 사용 된 도구 모음

그리고 마침내, 당신이 무엇을 결정하려고하는지 사용할 도구 및 배우고 배우는 방법, 일하는 방법, 80/20을 기억하십시오 작은 도구 세트로 많은 것을 얻을 수 있습니다 따라서 앞으로 갈 일에 집중하십시오 자신의 데이터 과학 프로젝트를 수행 할 때 가장 유용 할 수 있습니다 우리가 시작하자마자 코딩 및 데이터 과학에 대한 토론을 통해 실제로 코딩이 아닌 무언가로 시작하고 싶습니다

이미 만들어진 응용 프로그램이나 프로그램에 대해 이야기하고 싶습니다 데이터 조작 그리고 우리는 가장 기본적인 스프레드 시트부터 시작하려고합니다 우리는 Excel의 행과 열과 셀을 수행 할 것입니다 그 이유는 스프레드 시트가 필요합니다

자, 당신은 너 자신에게 말할지도 모른다 내가 자랑스러워하는 것을 알아, 내 큰 세트의 서버에서 일하고있어, 멋진 일이있어 "하지만, 당신은 사람들을 너무 좋아합니다 스프레드 시트도 필요합니다 그 이유

가장 중요한 점은 스프레드 시트가 데이터 과학에 적합한 도구가 될 수 있다는 것입니다 많은 상황; 거기에는 몇 가지 이유가 있습니다 스프레드 시트 1 위 어디서나 볼 수 있으며 유비쿼터스이며 전 세계 10 억 대의 컴퓨터에 설치됩니다 모두가 사용합니다 스프레드 시트에는 다른 어떤 것보다 많은 데이터 세트가있을 것입니다

그래서 매우 일반적인 형식입니다 중요한 것은 아마도 클라이언트의 형식 일 것입니다 많이 귀하의 고객 중 자신의 데이터에 대한 스프레드 시트를 사용하려고합니다 나는 10 억을 가지고 일했다 모든 데이터를 스프레드 시트에 보관하는 달러 기업 그래서, 함께 일할 때 그것들을 조작하는 방법과 그 방법을 알아야합니다

또한, 스프레드 시트는 특히 csv입니다 쉼표로 구분 된 값 파일입니다 링거 프랑카 또는 데이터 전송을위한 보편적 인 교환 형식을 사용하면 한 프로그램에서 다른 프로그램으로 가져 가라 그리고 진실하게, 많은 상황에서 그들은 정말 사용하기 쉽습니다 이것에 대한 두 번째 의견을 원한다면이 부분을 살펴 보겠습니다

순위 데이터 마이닝 전문가를 대상으로 한 설문 조사는 KDnuggets 데이터 마이닝 조사이며 자신의 작업에서 가장 많이 사용하는 도구입니다 그리고 이것을보십시오 : Excel은 5 위입니다 그 목록은 사실 흥미로운 점은 Hadoop과 Spark보다 두 배 더 뛰어나다는 것입니다 주요한 큰 데이터 멋진 도구들

그리고 Excel은 실제로 Excel에서 자존심을 가지고 있습니다 데이터 분석가를위한 툴킷 자, 우리는 일종의 저급 기술 종단을 분류 할 것이기 때문에, 스프레드 시트로 할 수있는 일에 대해 이야기 해 봅시다 1 위, 그들은 데이터 검색에 정말 좋습니다 당신은 정말로 당신 앞에있는 모든 데이터를 보게됩니다 R이나 Python과 같은 일을하는 경우에는 사실이 아닙니다

그들은 정말로 좋습니다 데이터 정렬,이 열을 기준으로 정렬 한 다음이 열을 기준으로 정렬합니다 그들은 정말 좋다 기둥과 셀을 재배치하고 물건을 옮기는 것 그들은 찾기 쉽고 바꾸고 보면서 무슨 일이 일어나면 제대로 작동하는지 알 수 있습니다

더 많은 용도로 사용됩니다 특히 포맷팅, 특히 조건부 서식에 좋습니다 그들은 데이터를 전치시키기에 좋다 행과 열을 전환하면 정말 쉽습니다 트래킹에 유용합니다

변경 이제 GitHub를 사용하고있는 멋진 데이터 과학자라면 사실입니다 하지만 스프레드 시트의 모든 사람들과 추적 변경 사항은 훌륭한 방법입니다 그것을하기 위해 피벗 테이블을 만들면 매우 실용적인 방식으로 데이터를 탐색 할 수 있습니다

매우 직관적 인 방법으로 그리고 그들은 또한 결과를 정리하는 데 정말로 좋습니다 소비를 위해 그러나 스프레드 시트로 작업 할 때 한 가지가 있습니다 당신은 알고 있어야합니다 : 그것들은 실제로 융통성이 있습니다,하지만 융통성은 그것의 문제가 될 수 있습니다 당신이 데이터 과학에서 일할 때, 당신은 특별히 뭔가를 염려하고 싶습니다

Tidy Data라고 부릅니다 그것은 내가 잘 알려진 개발자 인 Hadley Wickham으로부터 빌린 용어입니다 R 세계에서 깔끔한 데이터는 데이터를 전송하고 잘 작동하도록하기위한 것입니다 몇 가지가있다

스프레드 시트의 고유 한 유연성을 취소하는 규칙입니다 하나, 무엇 당신은 칼럼이 변수와 같은 일을하는 것입니다 열, 변수는 동일한 것입니다 그리고 행은 동일합니다 사례

파일 당 한 장의 시트가 있고, 한 레벨의 측정, 말하자면, 개인, 조직, 파일 당 상태 다시 말하지만, 이것은 스프레드 시트에 고유 한 유연성을 제공하지만 실제로 데이터 이동이 쉽습니다 한 프로그램에서 다른 프로그램으로 이 모든 것이 어떻게 작동하는지 보여 드리겠습니다 이것을 Excel에서 시도 할 수 있습니다 이 과정의 파일을 다운로드 한 경우이 스프레드 시트를 열면됩니다

Excel로 가서 어떻게 작동하는지 보여 드리겠습니다 따라서이 스프레드 시트를 열면 무엇을 당신은 내가 만든 모든 가상의 데이터를 얻습니다하지만 시간이 지남에 따라 판매를 보여주고 있습니다 야구장에서 물건을 파는 경우와 같이 두 곳의 여러 제품을 그리고 이것이 스프레드 시트가 나타나는 방식입니다 빈 행과 열이 있습니다

사람이 그것을 쉽게 처리 할 수 ​​있도록 배치 된 물건 그리고 우리는 여기에 합계가 표시됩니다 수식이 함께 표시됩니다 그리고 괜찮습니다 그것을 만든 사람에게도 좋습니다

그리고 나서 그것은 한 달 동안입니다 한달에 한 달 씩 또 다른 달이있다 모두 2014 년 1/4 분기입니다 여기에 헤더가 있고 조건부가 있습니다 서식 지정 및 변경 및 우리가 바닥에 올 경우, 우리는 매우 바쁜 라인 그래픽을 가지고있다

결국로드; 그것은 좋은 그래픽이 아닙니다 그러나, 당신이 할 것 인 것과 유사합니다 자주 찾는다 그래서, 이것은 클라이언트 자신의 개인용으로 유용 할 수 있지만 이것을 사용하면 R이나 파이썬으로 먹을 수 없으며, 그것은 막히게 될 것이고 무엇이 무엇인지 모른다 그것과 관련있다

따라서 데이터를 정리하는 과정을 거쳐야합니다 그리고 뭐 이 작업은 일부 작업을 취소합니다 예를 들어, 여기에 거의 잡동사니 그릇 여기에는 날짜에 대한 단일 열, 날짜에 대한 단일 열, 사이트, 그래서 우리는 두 개의 위치 A와 B가 있고, 우리는 6 개의 다른 판매되는 물건과 매일 판매되는 물건의 수 이제 상황에 따라 예를 들어, 시간과 같이 데이터를 정확히 레이아웃하려는 경우 시리즈와 같이, 당신은 이것과 모호하게 비슷한 것을 할 것입니다

그러나, 진실한 정돈 된 재료를 위해, 우리는 더 이상 붕괴 될 것입니다 여기에 깔끔한 데이터를 보냅시다 그리고 지금 나는 완료되었습니다, 나는 판매되는 품목이 무엇인지 말하는 새로운 칼럼을 만들었습니다 과 그래서, 이것이 의미하는 바는 우리가 지금 정말로 긴 데이터 세트를 가지고 있다는 것입니다 천 줄이 넘었습니다

여기에 다시 올라와 하지만, 그게 당신을 보여줍니다 이제는 한 프로그램에서 다른 프로그램으로 가져 오기가 쉬운 형식으로되어 있습니다 그것들을 깔끔하게 만들고 다시 조작 할 수는 있지만 일단 그것들에 도달하면 원하는대로하십시오 여기 몇 줄에 우리의 작은 발표를 요약 해 보겠습니다

번호 하나, 누가 상관없이 데이터 과학 분야에서 무엇을하고 있더라도 스프레드 시트가 필요합니다 그리고 그 이유는 그 이유는 스프레드 시트가 종종 데이터 과학에 적합한 도구이기 때문입니다 한 가지만 간직하십시오 그러나 당신이 한 언어에서 다른 언어로 앞뒤로 움직이는 것처럼, 깔끔한 데이터 나 올바른 형식의 데이터는 데이터를 분석 프로그래머 언어 "코딩 및 데이터 과학"을 진행하면서 특히 사용할 수있는 응용 프로그램은 나를 위해 눈에 띄는 응용 프로그램입니다

다른 무엇보다 중요한 것은 Tableau와 Tableau Public입니다 너라면 이것들에 익숙하지 않은 것은 시각화 프로그램입니다 여기에있는 아이디어는 데이터, 가장 중요한 일은 먼저 자신이 가지고있는 것을보고 보는 것입니다 거기서 그걸로 일해라 사실 많은 조직의 경우 Tableau 그들이 정말로 필요로하는 모든 것일지도 모릅니다

필요로하는 통찰력을 그들에게 줄 것이다 데이터로 건설적으로 작업 할 수 있습니다 이제 tableaucom으로 간략히 살펴 보겠습니다 Tableau에는 몇 가지 다른 버전이 있습니다

바로 여기 Tableau Desktop이 있습니다 Tableau Server 등이 있으며 이들은 Tableau의 유료 버전입니다 그들은 실제로 비영리 조직에서 일하지 않는 한 많은 돈을 벌어 들일 수 있습니다 무료로 어느 것이 아름다운 것입니다

그러나 우리가 일반적으로 찾고있는 것은 유료 버전이지만 Tableau Public이라고하는 것을 찾고 있습니다 네가 들어 오면 여기에 가서 제품에 가서 우리는이 3 개의 유료 제품을 Tableau Public으로 가져 왔습니다 그것을 클릭하면이 페이지로 이동합니다 publictableau

com입니다 그리고 이것은 하나는 우리가 원하는 것을 가지고 있습니다 하나의 주요 경고가있는 Tableau의 무료 버전입니다 파일을 컴퓨터에 로컬로 저장하면 파일을 열지 못했습니다 대신, 그것들을 공개 형식으로 웹에 저장합니다

따라서 개인 정보를 기꺼이 거래하고자한다면 데이터 시각화를위한 대단히 강력한 응용 프로그램을 얻을 수 있습니다 그건 잡을거야 많은 사람들이 데스크톱 버전으로 많은 돈을 기꺼이 지불해야하는 이유입니다 또한 비영리 단체에서 일하면 무료로 데스크톱 버전을 사용할 수 있습니다 그러나, Tableau Public에서 일하는 방식을 알려 드리겠습니다

그래서, 그것은 당신은 개인적으로 일할 수 있습니다 가장 먼저하고 싶은 것은 다운로드하려는 것입니다 그래서, 당신은 당신의 이메일 주소를 넣었습니다 당신이 무엇인지 알 것입니다 에

꽤 큰 다운로드입니다 일단 다운로드가 완료되면 설치하고 열 수 있습니다 응용 프로그램을 그리고 여기 나는 Tableau Public에 있습니다, 바로 여기, 이것은 빈 버전입니다 그런데 온라인에서 물건을 저장하려면 Tableau 계정을 만들어야합니다

그것을보기 위해 나는 그 모습을 보여줄 것이다 그러나, 당신은 공란으로 제시됩니다 바로 여기에서해야 할 일은 데이터를 가져와야한다는 것입니다 Excel 파일을 가져 오겠습니다

자, 코스 파일을 다운로드 한 경우, 이 바로 여기에 DS03_2_2_TableauPublicexcelxlsx가 있음을 알 수 있습니다 에서 사실,이 동영상의 첫 번째 동영상에서 스프레드 시트에 대해 이야기 할 때 사용한 항목입니다 코스

그 중 하나를 골라서 열어 보겠습니다 그리고 많은 프로그램들은 그것은 모든 워크 시트와 모든 기이함을 가지고 있기 때문에 Excel을 가져 오는 것과 같습니다 이걸로 더 잘 작동하지만, 내가 할 일은, 나는 깔끔하게 정리할 것입니다 데이터 그건 그렇고, 당신은 그것이 알파벳 순서로 여기에 넣어 것을 참조하십시오

내가 갈거야 깔끔한 데이터와 나는 그것이 내가 원하는 하나임을 알리기 위해 그것을 끌어 올 것이다 이제는 데이터 세트의 버전과 함께 여기에서 할 수 있습니다 이름을 바꿀 수 있습니다 빈 그룹을 만들 수 있습니다

여기서 할 수있는 일 나는이 특별한 것을 가지고 아주 아주 빠르게 뭔가를 할 것이다 하나 이제 데이터 세트를 얻었습니다 지금 제가 할 일은 제가 갈 것입니다

워크 시트에 그것이 실제로 물건을 만드는 곳입니다 취소하고 워크 시트로 이동하십시오 하나 괜찮아

이것은 드래그 앤 드롭 인터페이스입니다 그래서 우리가 할 일은 우리가하는 일입니다 우리가 그래픽을 만들고 싶어하는 정보의 조각들을 끌어낼 것입니다 거대한 여기 유연성 아주 기본적인 두 가지 것을 보여 드리겠습니다

나는 다음을 보게 될 것이다 내 가상의 야구장의 판매 그래서, 여기서 판매를 할거에요 우리가 측정하려고하는 분야로 그것을 넣을 것입니다 괜찮아

그리고 보시다시피 여기가 우리 총 판매량입니다 우리는 항목별로 나누기로하고 시각 그럼 여기서 물건을 가져 가자 너는 그걸 여기에 끌 수있어 아니면 넣어 줄 수있어

바로 여기에 줄을 서십시오 그것들은 내 행이 될 것이고 우리가 얼마나 많이 팔렸 을까? 각 항목의 합계 좋아요, 정말 쉽습니다 그리고 나서 데이트하자 그것을 여기 저기에 놓아 가로 지르십시오

자, 기본적으로 그것은 해마다 그것을하고 있습니다 그러고 싶지는 않아요, 나는 3 개월 동안의 데이터를 갖고 싶습니다 그래서 내가 할 수있는 것은, 할 수있다 여기를 클릭하면 다른 시간대를 선택할 수 있습니다 나는 분기에 갈 수 있지만 그게 단 1 분기의 데이터 만 가지고 있기 때문에 도움이되지 않을 것입니다

3 개월입니다 나는 일주일에 내려갈거야 사실, 날 보내 줘 내가 하루를 보았다면, 당신은 그것을 본다 엄청나게 복잡해 지므로 좋지 않습니다

그래서 나는 일주일에 백업 할 것입니다 과 거기에 많은 숫자가 있지만, 원하는 것은 그래프입니다 그래서, 그것을 얻으려면, 나는 여기에 와서 이것을 클릭하고 그래프를 원한다고 말하십시오 그래서 우리는 잃어버린 물건을 제외하고 정보를 보는 것 그래서, 나는 물건을 가져 와서 돌려 놓을거야

이 그래프를 보면 데이터의 행이라고 말할 수 있습니다 이제는 판매 행이 있습니다 각 항목에 대해 일주일에 한 번씩 훌륭합니다 나는 퍼팅으로 한 번 더 부셔 먹고 싶다 사이트에서 판매 한 장소

그래서 나는 그것을 붙잡을 것이고 나는 그것을 넣을 것이다 바로 여기 그리고 지금 당신은 내가 판매 된 품목에 의해 세분화 된 것을 볼 수 있습니다 다른 사이트 나는 그 사이트에 색칠을 할 것이고, 그 일을하기 위해해야만하는 것은, 나는 사이트를 움켜 잡고 색깔 위로 끌어 올 것입니다

이제 저는 두 가지 색상이 있습니다 사이트 그리고 이로 인해 무슨 일이 일어나는지 쉽게 알 수 있습니다 사실, 다른 멋진 것들을 할 수 있습니다 내가해야 할 일 중 하나가 분석에 대한 것입니다

모든 것을 통해 평균적인 선을 긋기 위해 말할 수 있습니다 따라서 여기를 드래그 해 보겠습니다 이제 각 라인의 평균값을 구합니다 좋습니다 예측도 할 수 있습니다

나를 시켜줘 여기에 약간의 예측을하십시오 나는 이것을 끌고 넘어갈 수 있다면 이리 나는 이것을 잠시 빠져 나갈 것이다 자, 다음에 대한 예측이 있습니다

몇 주, 그리고 그것은 정말로 편리하고 빠르며 쉬운 일입니다 그리고 다시, 실제로 필요한 조직 일 수 있습니다 그래서, 내가 너에게 보여줄거야 여기 Tableau의 절대적인 기본 동작은 놀라운 범위를 수행 할 수있게 해줍니다 데이터를 조작하고 대화 형 대시 보드를 만들 수 있습니다

저기있다 우리는 그것을 다른 코스에서 보여줄 것입니다 그러나 지금 당장은 당신에게 보여주고 싶습니다 Tableau Public에 관한 한 마지막으로 파일을 저장하는 중입니다 그래서 지금, 내가 여기 올 때

그것을 저장하면 Tableau Public에 로그인하도록 요청할 것입니다 자, 로그인하고 이 비디오를 저장하는 방법을 묻습니다 우리가 간다 저장을 누르십시오 그리고 나서 웹 브라우저가 열리고 이미 내 계정에 로그인되어 있기 때문에, 여기 내 계정과 내 프로필을 참조하십시오

다음은 내가 만든 페이지입니다 그리고 모든 것이 있습니다 내가 필요한 곳 몇 가지 세부 사항 만 편집 할 것입니다 예를 들어, 나는 그 이름 그대로 떠날거야

나는 거기에 더 많은 설명을 넣을 수있다 나는 원했다 사람들이 통합 문서 및 해당 데이터를 다운로드하도록 허용 할 수 있습니다 나는 떠날거야 필요한 경우 다운로드 할 수 있습니다

두 개 이상의 탭이있는 경우 다른 시트를 탭으로 표시한다고 말하는 것 저장을 클릭하십시오 내 데이터 세트가 있습니다 또한 온라인으로 게시되어 사람들이 이제 찾을 수 있습니다 그래서 여기에 네가 가진 것이있다

대화 형 시각화를 생성하는 놀라운 도구입니다 드롭 다운으로 만들 수 있습니다 메뉴를 사용하고 항목을 재정렬 할 수 있으며 전체 대시 보드를 만들 수 있습니다 멋지다 정보를 제공하는 방법, 그리고 전에 말했듯이, 나는 어떤 조직 이는 데이터에서 실제로 유용하고 유용한 정보를 얻는 데 필요한만큼 많이 수행 할 수 있습니다

Tableau와 함께 탐구 할 시간을 갖기를 강력히 권장합니다 유료 데스크톱 버전 또는 공개 버전을 사용하고 실제로 어떤 것을 얻을 수 있는지 알아보십시오 데이터 과학 분야에서의 뛰어난 시각적 효과를 제공합니다 많은 사람들에게, "코딩 및 데이터 과학"에 대한 그들의 첫 번째 경험은 응용 프로그램 SPSS에 있습니다 지금, 나는 SPSS를 생각하며, 내 마음에 오는 첫 번째 일은 아이보리 타워에서 일종의 삶이다

이것은 해리포터와 더 비슷하게 보일지라도 그러나 패키지 이름을 생각하면 SPSS는 사회 과학 통계 패키지에서 제공됩니다 비록 IBM에 문의하면 지금은 아무 것도지지하지 않는 것처럼 행동합니다 하지만, 일반적으로 학문적 인 사회 과학 연구 그리고 진실하게, 나는 사회 심리학자이다

SPSS 사용법을 처음부터 배웠습니다 하지만, 그들의 웹 페이지 ibmcom/spss 그걸 입력하면 별칭이됩니다 귀하는 IBM의 주요 웹 페이지로 이동합니다

이제 IBM은 SPSS를 만들지 않았지만 버전을 중심으로 구입했습니다 16, 그리고 그것은 단지 PASW 예측 분석 소프트웨어로 매우 간략하게 알려져 있었으며 간단히 말하면 이제는 SPSS로 돌아 왔습니다 SPSS는 오랜 기간 동안 있었던 곳입니다 SPSS는 데스크톱 프로그램; 그것은 꽤 크고, 많은 일을하며, 매우 강력합니다 많은 학술 연구에 사용됩니다

또한 많은 비즈니스 컨설팅, 관리, 심지어 일부 의학 연구 그리고 SPSS에 관한 한, 스프레드 시트처럼 보입니다 그러나 당신의 인생을 조금 더 쉽게 만들 수있는 드롭 다운 메뉴가 있습니다 당신이 사용할 수있는 프로그래밍 언어 이제 임시 버전을 무료로 얻을 수 있습니다

학생은 싼 버전을 얻을 수 있습니다 그렇지 않으면 SPSS는 많은 돈을 요합니다 하지만, 만약 당신이 그것은 하나의 방법이나 다른, 당신이 그것을 열 때 이것이 어떻게 생겼는지입니다 나는 SPSS 버전 22를 보여 주며, 현재 24에 있습니다 SPSS 버전 관리에 관한 내용 소프트웨어 패키징 이외의 다른 점은 이것들이 포인트 업데이트 일 것입니다

그래서 저는 우리가 23이나 24가 아닌 173에 있어야한다고 생각합니다 당신이 초기의 것들로부터 배우는 것이 작은 것들은 나중에 일어날 것들을 연구 할 것입니다 많은 후진 및 포워드 호환성이 있기 때문에, 나는 거의 이것을 말할 것입니다 버전 나는 실질적으로 중요하지 않다

당신은이 작은 환영 스플래시 화면을 얻을 수 있습니다 당신은 그것을 더 이상 볼 수 없기 때문에 더 이상 그것을 볼 수 없습니다 나는 여기서 취소 할 것입니다 그리고 이것이 우리의 주요 인터페이스입니다 그것은 스프레드 시트와 매우 흡사합니다

차이점은, 변수 정보를보기위한 별도의 창을 가지고 있으며, 별도의 창이 있습니다 출력을 위해, 그리고 Syntax라고 불리는 것을 위해 선택적인 것 하지만 이걸 어떻게 보여 드릴까요? 먼저 데이터 세트를 열어 작동합니다 SPSS에는 많은 샘플 데이터 세트가 있지만 그들은 도착하기 쉽지 않고 정말로 숨겨져 있습니다 예를 들어 내 Mac에서는 나는 그들이있는 곳으로 간다

Mac에서 나는 파인더에 가고, Mac, 응용 프로그램, IBM의 폴더, SPSS, 통계, 버전 번호, 샘플까지 나는 영어로 된 것들을 원한다고 말하고 나서 그것들을 가져온다sav 파일은 실제 데이터 파일입니다 여기에 다른 종류가 있으므로 sav는 다른 파일입니다

파일의 종류와 계획 분석에 대해 다른 점이 있습니다 그래서, 거기에있다 그것의 버전 여기서 "시장 가치 sav"라는 파일을 열어 보겠습니다

데이터는 SPSS 형식으로 설정됩니다 그리고 그걸 가지고 있지 않으면 다른 것을 열 수 있습니다 지금은별로 중요하지 않습니다 그건 그렇고, 눈치 채지 못했을 경우 SPSS는 열릴 때 정말 천천히 그것은 또한 버전 24 임에도 불구하고 친절합니다

버그와 충돌의 따라서 SPSS와 함께 일할 때 절약의 습관을 갖기를 원합니다 끊임없이 당신의 일 또한 프로그램을 열 때가 참을성도 있습니다 그래서, 여기 주소 및 하우스 값을 표시하는 데이터 세트이며, 정보는 평방 피트입니다

이게 진짜 정보인지는 모르겠지만, 나에게 인위적으로 보입니다 그러나 SPSS를 사용하면 당신은 포인트 앤 클릭 (point and click) 분석을합니다 이것은 많은 일들에 대해 드문 것입니다 그래서, 나는 갈거야 예를 들어, 그래프를 만들겠다고 말하려고합니다

나는 만들거야 A- 저는 주택 가격의 히스토그램을 얻기 위해 레거시 대화라는 것을 사용할 것입니다 그래서 간단히 값을 클릭합니다 바로 저기에 넣으십시오 정상 곡선을 맨 위에 놓을 것입니다

확인을 클릭하십시오 이것은 새로운 창을 열 것입니다, 그리고 그것은 현미경 적으로 그것의 버전, 그래서 나는 그것을 더 크게 만들 예정입니다 출력 창입니다이 창은 별도입니다 창 옆에 탐색 창이 있습니다

데이터가 어디서 왔는지 알려줍니다 여기에서 명령을 저장하면 기본 히스토그램이 있습니다 그래서, 우리는 대부분의 집이 125,000 달러 주위에 있었음을 알았습니다 그리고 나서 그들은 적어도 400,000 달러 평균은 256,000 달러이고 표준 편차는 약 8 만 달러입니다

데이터 세트의 94 개 주택입니다 좋아, 훌륭해 내가 할 수있는 다른 일은 내가 원한다면 몇 가지 분석을하기 위해 데이터로 돌아가 보겠습니다 예를 들어, 나는 할 수있다 분석을 위해 여기에 와서 내가 설명 할 수 있고 실제로 나는 여기에 하나를 할 것입니다

탐색하십시오 구매 가격을 받아서 바로 여기에 넣으겠습니다 그냥 기본적으로 무리를 얻을 나는 괜찮을거야 그리고 출력으로 돌아갑니다

창문 다시 한번 작게 만들었습니다 그리고 이제, 당신은 내 차트 아래에 있습니다 저는 이제 테이블을 가지고 있습니다 나는 많은 정보를 가지고있다

줄기와 잎 줄거리, 박스 줄거리, 위대한 이상 치를 검사하는 방법 그래서 이것은 물건을 저장하는 매우 편리한 방법입니다 이 정보를 이미지로 내보낼 수 있으며 전체 파일을 HTML로 내보낼 수 있습니다 당신은 pdf 또는 PowerPoint로 그것을 할 수있다 여기에는 많은 옵션이 있으며 사용자 정의 할 수 있습니다

여기에있는 모든 것들 자, 너를 만드는 또 하나의 것을 보여주고 싶다 인생은 SPSS에서 훨씬 쉬워졌습니다 이 명령을 내려 놓는 것이 바로 여기에 있습니다 그것은 실제로 그래프를 말하고 히스토그램을 말하며 정상은 값과 같습니다

그리고 여기 아래로, 이 작은 명령을 바로 여기 있습니다 대부분의 사람들은 자신의 작업을 저장하는 방법을 모릅니다 SPSS에서, 그리고 그것은 당신이 단지 매번 다시 그것을해야하는 것과 같은 것입니다 그러나 이것을하는 아주 간단한 방법이 있습니다 내가 할 일은 내가 열어 볼거야

Syntax 파일이라고 불리는 것 나는 새로운 것으로 갈거야, 문맥 그리고 이것은 그냥 비어 있습니다 창은 프로그래밍 창, 코드를 저장하기위한 것입니다 그리고 저를 분석으로 돌아 가게하겠습니다

나는 잠시 전에했다 나는 분석에 돌아갈 것이고 나는 여전히 여기에 바로 갈 수있다 기술 탐구하면 내 정보가 아직 남아 있습니다 그리고 여기서 일어나는 일은 내가 비록 드롭 다운 메뉴와 포인트 앤 클릭으로이 작업을하면 붙여 넣기가 수행됩니다 그 명령을 생성하는 코드를 취하여이 구문 창에 저장합니다

과 이것은 단지 텍스트 파일입니다 그것은 spss로 저장하지만, 열 수있는 텍스트 파일입니다 아무것도 그리고 이것에 대해 아름다운 점은 복사하여 붙여 넣기가 정말 쉽다는 것입니다

이것을 Word로 가져 와서 검색하고 바꿀 수도 있습니다 정말 쉽습니다 분석을 복제합니다 그래서 SPSS는 좋은 프로그램입니다 그러나, 당신이 사용하기 전까지는 구문 당신은 그것의 진정한 힘을 알지 못한다

그것을 작동시키는 방법 어쨌든, 이것은 SPSS에 대한 간단한 소개입니다 내가 원했던 모든 것 스프레드 시트처럼 보이는 매우 일반적인 프로그램이라고 말하지만, 당신에게 더 많은 힘과 옵션을 제공하고 드롭 다운 메뉴와 텍스트 기반 구문을 모두 사용할 수 있습니다 명령을 사용하여 작업을 자동화하고 나중에 복제하는 것이 더 쉽습니다 "코딩 및 데이터 과학"에 대한 또 하나의 응용 프로그램을 살펴보고 싶습니다

JASP 이것은 새로운 응용 프로그램으로 많은 사람들에게 친숙하지 않고 여전히 베타 버전입니다 그러나 놀라운 약속이 있습니다 기본적으로 SPSS의 무료 버전이라고 생각할 수 있습니다 우리는 자유로운 것을 좋아합니다

하지만 JASP는 무료가 아니라 오픈 소스이기도합니다 직관적이며 분석을 복제 할 수 있으며 베이지안 방식을 포함합니다 그래서, 모두 함께 가져 가세요, 우리는 꽤 행복합니다 우리는 기쁨으로 뛰고 있습니다 그래서, 우리가 계속 전진하기 전에, 너는 너 자신에게 묻고 있을지도 모른다

JASP, 그게 뭐야? 음, 창작자 단호한 통계 프로그램 (Just Another Statistics Program)을지지한다는 것을 부인했다 우리는 JASP라고 부르며 매우 행복하게 사용할 것입니다 너는 얻을 수있다 jasp-statsorg로 이동하여 그리고 지금 당장 살펴 봅시다

JASP는 새로운 프로그램, 그들은 SPSS에 대한 저지방 대안을 말하지만, 정말 훌륭한 방법입니다 통계를하는 중 당신은 당신의 플랫폼을 공급함으로써 그것을 다운로드하기를 원할 것입니다; 그것은 심지어 Linux 형식으로 제공됩니다 그리고 다시 베타 버전이므로 게시 된 상태로 유지하십시오 정기적으로 업데이트 중입니다 Mac 사용자라면 Xquartz를 사용해야 할 것입니다

설치하기 쉬운 것이고 많은 일이 더 잘됩니다 그리고 그것은 훌륭합니다 분석 할 수있는 방법 JASP를 열면 다음과 같이 보일 것입니다 꽤 예쁘다

빈 인터페이스이지만, 그걸로가는 것은 정말 쉽습니다 그래서 예를 들어, 당신은 올 수 있습니다 여기에 파일을 저장하고 예제 데이터 세트를 선택할 수도 있습니다 예를 들어 여기에 하나는 빅 5라는 성격 요소입니다 여기에 데이터가 있습니다

정말 쉽습니다 함께 일해 잠깐 여기 이것을 넘기도록하겠습니다 그래서 다섯 가지 변수가 있습니다 그리고 이것들에 대한 몇 가지 빠른 분석을 해봅시다

예를 들어, 우리는 설명을 원합니다 우리는 몇 가지 변수를 선택할 수 있습니다 이제 SPSS에 익숙하다면 레이아웃이 매우 느껴집니다 훨씬 똑같은데 결과물은 똑같아 보입니다 있잖아, 내가해야 할 일은 선택하는거야

내가 원하는 것은 즉시 여기에 나타납니다 그런 다음 추가 통계를 선택할 수 있습니다 코어 타일을 얻을 수 있습니다 중간 값을 얻을 수 있습니다 그리고 당신은 플롯을 선택할 수 있습니다

어떤 음모를 꾸미 죠 당신이해야 할 일은 그것을 클릭하면 나타나는 것입니다 그리고 그것은 정말 아름다운 것입니다 이러한 것들을 조금 수정할 수 있습니다 예를 들어, 플롯 포인트를 사용할 수 있습니다

내가 그것을 아래로 드래그 할 수 있는지 보자 그리고 내가 그것을 작게 만들면 5 개의 그림을 볼 수있다 나는 그걸 조금 지나치게 멀리 갔다 어쨌든 여기에서 많은 일을 할 수 있습니다 그리고 나는 할 수있다

이것을 숨기면, 나는 그것을 무너 뜨릴 수 있고 나는 계속해서 다른 분석을 할 수있다 자, 정말로 무엇이 깔끔하지만 내가 탐색 할 때 그렇습니다 그래서 방금 결과의 빈 영역을 클릭했습니다 페이지에서 우리는 여기에있는 데이터로 되돌아갑니다 하지만이 테이블 중 하나를 클릭하면 하나는 바로 여기, 그것은 그것을 생산하는 명령을 즉시 가져오고 나는 단지 수정할 수 있습니다

내가 원한다면 좀 더 나는 비뚤어진 것과 첨예 한 것을 원한다고 말한다 그들은 거기에있다 그것은 놀라운 일을 한 다음 여기로 돌아올 수 있습니다 나는 그것을 클릭하면됩니다

플롯에 올 수 있고 그것들을 확장 할 수 있습니다 클릭하면 명령이 나타납니다 그 (것)들은 그들을 만들었다 그것은 일을하는 데 놀랍도록 쉽고 직관적 인 방법입니다 이제, 또 다른 JASP에 관한 정말 좋은 점은 정보를 온라인으로 공유 할 수 있다는 것입니다

osfio라는 프로그램을 통해 그것은 열린 과학 재단을 의미합니다 그것의 웹 주소 osfio 그래서, 그것이 무엇인지 잠깐 살펴 보겠습니다

여기 오픈 과학 프레임 워크 웹 사이트 및 멋진 서비스, 무료이며 지원하도록 설계되었습니다 공개적이고, 투명하며, 접근 가능하고, 책임감 있고, 공동 연구를 할 수는 없습니다 그것에 대해 충분한 좋은 것을 말하십시오 이것에 관해 깔끔한 것은 일단 OSF에 가입하면 자신의 영역을 만들 수 있고 내 자신의 영역을 가질 수 있습니다 이제 그 영역으로 갈 것입니다

그래서, 예를 들어, 오픈 사이언스 프레임 워크의 datalab 페이지가 있습니다 내가 한 일은 이 JASP 분석 버전을 만들고 여기에 저장했습니다 사실, 열어 보겠습니다 JASP에서의 JASP 분석과 osf에서의 모습을 보여 드리겠습니다 먼저, JASP로 돌아 가라

우리가 여기 왔을 때 파일을보고 컴퓨터를 클릭하면됩니다 이 파일을 바탕 화면에 저장했습니다 데스크톱을 클릭하면 다운로드 할 수 있었을 것입니다 이 모든 다른 파일들, DS03_2_4_JASP를 더블 클릭하면 열 수 있습니다 새 창을 열려고하면 같은 데이터 세트로 작업하고있는 것을 볼 수 있습니다

나는 더 많은 분석을했다 나는이 그래프를 가지고있다 상관 관계와 산점도가 있습니다 이리와, 나는 선형 회귀를했다 그리고 우리는 그것을 클릭하면 볼 수 있습니다

그것뿐만 아니라 옵션을 생산하는 명령 나는 특별한 일을하지 않았다 그,하지만 나는 약간의 자신감 간격을했고 그것을 지정했다 그리고 그것은 정말로 위대하다 이 모든 것을 처리하는 방법

빈 영역을 다시 클릭하면 명령이 표시됩니다 나가서 JASP에서 제 출력물을 얻었습니다 그러나 그것을 저장할 때, 나는 OSF에 저장하는 옵션, 실제로이 웹 페이지 osfio/3t2jg로 이동하면 실제로 내가 수행 한 분석을보고 다운로드 할 수있는 페이지로 갈 수 있어야합니다 한 번 보자

이 페이지입니다 간신히 당신에게 준 주소가 있습니다 당신이 여기에서 볼 수있는 분석은 제가 수행 한 것과 같습니다, 괜찮습니다 그래서 당신이 협력한다면 사람들과 함께 또는 당신이 사람들에게 사물을 보여주고 싶다면, 이것을 할 수있는 훌륭한 방법입니다 모든 것이 바로 그곳에 있습니다

이것은 정적 인 이미지입니다하지만 최고의 사람들은 선택의 여지가 있습니다 원본 파일을 다운로드하여 직접 작업하십시오 당신이 말할 수없는 경우에, 나는 JASP에 대해 열렬히 기대하고있다 여전히 베타 버전으로 성장하고있다

빠르게 SPSS에 대한 무료 오픈 소스 공동 작업으로 실제로 볼 수 있습니다 많은 사람들이 데이터 과학 작업을 훨씬 쉽게 할 수 있다고 생각합니다 나는 JASP를 면밀히 살펴 보길 강력히 권장합니다 "코딩에 대한 토론을 끝내자

및 데이터 과학 "응용 프로그램의 일부로 다른 소프트웨어를 간략히보고 있습니다 선택 그리고 압도적 인 이유가 있습니다 많은 선택 이제는 스프레드 시트와 Tableau, SPSS 및 JASP 외에도 이미 말했듯이, 그 이상이 있습니다

나는 너에게 다양한 범위를 줄 것이다 내가 알고있는 것들과 중요한 것들을 제외 시켰을 것입니다 다른 사람들은 정말로 좋아하지만, 이것들은 공통적 인 선택이고 덜 일반적입니다 하지만 재미있는 것들 번호 하나, 언급하지 않은 것들에 관해서는 SAS입니다

SAS 매우 강력한 분석 프로그램으로 많은 것들에 사용됩니다 그 사실 제가 배운 첫 번째 프로그램이고 다른 한편으로는 종류가 어렵습니다 사용하기에 비싸지 만 흥미로운 몇 가지 대안이 있습니다 SAS SAS University Edition이라고 불리는 프로그램도 있습니다 학생 인 경우 무료입니다

그것이하는 일이 약간 줄어들지 만, 그것이 자유 롭다는 사실입니다 또한 실행됩니다 엄청난 다운로드를하는 가상 머신에서는 SAS를 배우는 좋은 방법입니다 그것이 당신이하고 싶은 무엇인가라면 SAS는 또한 내가 정말 좋아하는 프로그램을 만들었습니다

그렇게 비싼 것은 아니기 때문에 JMP와 그 시각화 소프트웨어라고 불립니다 Tableau를 조금 생각해 봅시다 어떻게 보았습니까? 시각적으로이 작업과 함께 작업하십시오 당신은 물건을 끌 수 있습니다, 그것은 정말 멋진 프로그램입니다 나는 그것을 개인적으로 금지적이라고 생각한다

비싼 근무 분석가들 사이에서 또 다른 매우 일반적인 선택은 Stata와 일부 사람들 Minitab을 사용하십시오 자, 수학적 사람들에게는 MATLAB이 있고 물론 거기에 있습니다 Mathematica 그 자체이지만, 실제로는 프로그램보다는 언어에 가깝습니다 다른쪽에 손, 볼프람; Mathematica를 만든 사람은 우리에게 Wolfram Alpha를주는 사람들이기도합니다

사람들은 iPhone에서 실행할 수 있기 때문에이 통계 응용 프로그램을 생각하지 않습니다 그러나, Wolfram Alpha는 믿을 수 없을만큼 유능하며 특히 프로 계정에 대해 지불하는 경우, 분석, 회귀 모델, 시각화를 포함하여 놀라운 일을 할 수 있습니다 그래서 좀 더 자세히 살펴볼 가치가 있습니다 또한, 필요한 데이터 Wolfram Alpha는 흥미로운 데이터입니다 이제 여러 응용 프로그램 보다 구체적으로 데이터 마이닝에 맞춰 졌으므로 데이터 마이닝을 수행하지 않으려 고합니다

정기적으로, 당신은 알지 못한다 그러나 RapidMiner가 있고 거기에 KNIME와 Orange는 컨트롤 언어이므로 모두 사용하기가 좋습니다 여기서 노트를 스크린으로 드래그하고 라인을 연결하면 어떻게 볼 수 있습니까? 사물들이 지나간다 이 세 가지 모두 무료 또는 무료 버전과 세 가지 그들도 꽤 비슷한 방식으로 작동합니다 기계 학습을위한 BigML도 있습니다

이것은 브라우저 기반이기 때문에 비정상적이며, 서버에서 실행됩니다 무료 버전이 있습니다 전체를 다운로드 할 수는 없지만 BigML을 사용하는 데는 많은 비용이 들지 않으며 매우 친절하고 매우 접근하기 쉬운 프로그램 그렇다면 실제로 설치할 수있는 프로그램 측면에서 자신의 컴퓨터에서 무료로 SOFA 통계를 구할 수 있습니다 통계를 의미합니다

모두를 위해 열려, 그것은 치즈 냄새의 종류의 종류 다 그러나 그것은 좋은 프로그램이다 그리고 나서 1990 년의 웹 페이지는 지난 3 년, 이것은 고생물학의 소프트웨어이고 다른 하나는 손은 매우 일반적인 것들을 수행합니다, 그것은 많은 플랫폼에서 실행되며 정말 강력합니다 물건과 그것은 자유 롭다 그러나 그것은 비교적 알려지지 않다 그리고 비교적 알려지지 않은, 내 마음에 가깝고 소중한 웹 응용 프로그램은 Statcrunch라는 웹 응용 프로그램입니다

하지만 1 년에 6 달러 또는 12 달러의 비용이 들지만, 실제로 저렴합니다 특히 기초 통계와 학습을 위해, 나는 내가 가르치고있는 수업 중 일부에서 사용했다 그리고 만약 당신이 Excel에 깊이 관여하고 있으며 그 환경을 떠나지 못하게된다면, XLSTAT와 같은 추가 기능을 구입할 수 있습니다 XLSTAT는 다양한 통계 기능을 제공합니다 Excel 환경 자체

그것은 선택의 여지가 많고 여기에서 가장 중요한 것입니다 압도 당하지 않는다 선택의 여지가 많지만, 모든 것을 시도 할 필요조차 없습니다 그들의 정말 중요한 질문은 당신과 프로젝트에 가장 적합한 것이 무엇인가하는 것입니다

너는 일하고있어? 그 점에서 고려해야 할 몇 가지 사항이 있습니다 우선 기능성, 실제로 원하는대로하거나 컴퓨터에서 실행하는지 여부 프로그램이 할 수있는 모든 것을 필요로하지는 않습니다 Excel에서 할 수있는 일에 대해 생각할 때 사람들은 아마 사용 가능한 것의 5 %를 사용합니다 두 번째는 사용 편의성입니다 일부 이 프로그램은 다른 프로그램보다 사용하기가 훨씬 쉽습니다

사용하기 쉬운 것들은 좋아하기 때문에 "아니요 프로그램을해야 하니까요 나는 맞춤식 물건이 필요하다 "그러나 나는 사람들이하는 것의 95 %가 필요하지 않다는 것을 내기를 기꺼이한다 어떤 관습

또한 커뮤니티의 존재 끊임없이 일할 때 당신은 문제를 겪고 그것을 해결하고 온라인을 얻을 수있는 방법을 알지 못합니다 답변을 검색하고 거기에 사람들이있는 커뮤니티가 충분합니다 누가 대답을하고 이런 것들을 토론 했습니까? 그것들은 훌륭합니다 이들 중 일부 프로그램은 매우 중요한 공동체이며 일부는 사실상 존재하지 않습니다 그것은 당신에게 얼마나 중요한지를 결정하는 것입니다

그리고 마침내 당연히 거기에 물론 비용 문제입니다 언급 한 많은 프로그램 중 일부는 무료이며 일부는 매우 유용합니다 싸구려, 일부는 프리미엄 모델을 실행하며 그 중 일부는 극도로 비쌉니다 그래서, 누군가 다른 사람이 그것을 지불하지 않으면 당신은 그들을 사지 않습니다 그래서, 이것들은 다양한 프로그램을 보려고 할 때 명심하고 싶은 것들

또한, 이것을 언급하자 80/20 규칙을 잊지 마세요 너는 할 수있을거야 적은 수의 도구, 하나 또는 두 개의 도구로 수행해야하는 대부분의 작업, 어쩌면 세 가지가 아마도 당신이 필요로하는 모든 것 일 것입니다 그래서, 당신은 가능한 모든 도구의 범위

필요한 것을 찾아 내고 편한 것을 찾으십시오 당신이 할 수있는 한 많은 가치를 추출하려고 노력합니다 따라서, 요약하면 코딩 및 데이터 과학을위한 사용 가능한 응용 프로그램에 대한 토론 응용 프로그램을 먼저 기억하십시오 도구이기 때문에 운전하지 않고 사용합니다 그리고 당신의 목표는 무엇을 선택하게하는지입니다

귀하의 응용 프로그램과 당신이 그것을하는 방식 그리고 가장 중요한 것은 당신을 위해 일하는 것이 기억에 남는다면, 당신이 편안하지 않다면 다른 누군가를 위해 잘 작동 할 것입니다 그것으로, 당신이 다루는 질문이 아니라면, 무엇에 대해서 생각하는 것이 더 중요합니다 자신 만의 선택을 할 때 작업중인 프로젝트와 프로젝트에 효과적입니다 데이터 과학에서 일하는 도구

"데이터 과학에서 코딩"을 할 때 가장 당신이 할 수있는 중요한 일은 웹 데이터로 작업 할 수 있다는 것입니다 그리고 만약 당신이 웹 데이터를 HTML로 작업하게 될 것입니다 그리고 익숙하지 않은 경우 HTML 월드 와이드 웹이 돌아가는 이유입니다 그것이 의미하는 것은 하이퍼 텍스트 마크 업 언어 – 이전에 웹 페이지를 다루지 않았다면 여기에 약간의 비밀이 있습니다 웹 페이지 텍스트 일뿐입니다

텍스트 문서 일 뿐이지 만 태그를 사용하여 문서와 웹 브라우저는 이러한 태그가 무엇인지 알고 있으며, 오른쪽에 표시합니다 방법 예를 들어 태그 중 일부는 다음과 같습니다 그들은 꺾쇠 괄호 안에 있습니다 꺽쇠 괄호가 있고 시작 태그가 있으므로 몸체를가집니다

본문, 텍스트의 주요 부분, 그리고 꺽쇠 괄호 안에 백 슬래시가 있습니다 body를 사용하여 컴퓨터에서 해당 부분을 완료했음을 알립니다 또한 p와 백 슬래시가 있습니다 단락은 p H1은 머리글 하나에 해당 텍스트 사이에 넣습니다

TD는 테이블 데이터 또는 셀을 테이블에 넣고 그런 식으로 표시합니다 무엇을보고 싶다면 이 문서는 DS03_3_1_HTMLtxt로 보입니다 나는 바로 지금 그곳에 갈 것입니다 지금, 어떤 텍스트 편집기를 열어 놓았 느냐에 따라 실제로 웹 미리보기가 제공 될 수 있습니다

TextMate에서 열어서 실제로 입력 한대로 텍스트를 보여줍니다 나는 이것을 수동으로 입력하십시오 방금 입력 했어 그리고 HTML을 가지고 어떤 문서를 볼 수 있습니까? 나는 빈 헤더를 가지고 있지만, 그런 종류의 존재가 필요하다 이것, 나는 시체가있다, 그리고 나는 약간의 본문을 가지고있다

li은 목록 항목 용이며 헤더가 있습니다 웹 페이지 링크를 클릭하면 작은 표가 나타납니다 그리고이게 어떻게 생겼는지보고 싶다면 웹 페이지로 표시 될 때 여기로 가서 웹 미리보기를 표시하십시오 이것이 동일한 문서이지만, 지금은 브라우저에 있으며 웹 페이지를 만드는 방법입니다 지금 이것이 매우 기본적인 것임을 알아야합니다

그러나 이것이 중요한 이유는 여러분이 웹에서 데이터를 추출하려는 경우 해당 정보가 어떻게 웹에 인코딩되어 있으며 정규 HTML을위한 대부분의 시간 동안 HTML에있게됩니다 웹 페이지 이제 CSS라고하는 또 다른 것이 있습니다 웹 페이지 CSS를 사용하여 문서의 모양을 정의하십시오 HTML은 이론적으로 콘텐츠를 제공합니다

CSS는 외관을 제공합니다 그리고 그것은 Cascading Style Sheets를 의미합니다 나는 가지 않을거야 우리가 실제로 콘텐츠에 관심이 있기 때문에 지금 당장 걱정할 필요가 있습니다 그리고 지금 웹 페이지를 읽고 웹 페이지에서 데이터를 가져올 수있는 열쇠가 있습니다

데이터 과학 프로젝트 그래서, 합계; 먼저 웹은 HTML로 실행되며 이것이 바로 거기있는 웹 페이지 HTML은 페이지 구조와 위에있는 내용을 정의합니다 그 페이지 그리고 태그와 구조를 탐색하는 방법을 알아야합니다

데이터 과학 프로젝트를위한 웹 페이지의 데이터 "코딩 및 데이터"의 다음 단계 과학 "은 웹 데이터로 작업 할 때 XML에 대해 조금 이해하는 것입니다 이것을 웹 데이터의 일부로 생각하는 것이 중요합니다 "데이터, 정의 XML "은 XML (eXtensible Markup Language)의 약자로 XML은 반 구조화 된 것입니다 데이터

이것이 의미하는 것은 태그가 데이터를 정의하므로 컴퓨터가 특정 정보의 조각이다 그러나 HTML과 달리 태그는 자유롭게 정의 할 수 있습니다 필요 그리고 당신은 거기에이 엄청난 융통성을 갖지만, 당신은 여전히 컴퓨터가 그것을 읽을 수 있도록 이제 보게 될 몇 가지 장소가 있습니다

XML 파일 번호 하나는 웹 데이터에 있습니다 HTML은 웹 페이지의 구조를 정의하지만 if 데이터를 입력하면 XML 파일 형식으로 제공됩니다 재미있게, docx 또는

xlsx가있는 경우 Microsoft Office 파일은 끝에있는 X 부분을 의미합니다 이러한 문서를 만드는 데 사용되는 XML 버전입니다 iTunes를 사용하는 경우 라이브러리 모든 아티스트와 장르, 평점 및 자료가 포함 된 정보, 그것은 모두 XML 파일에 저장됩니다 그리고 마지막으로, 종종 특정 데이터 파일 프로그램은 데이터 구조를 프로그램에 표시하는 방법으로 XML로 저장할 수 있습니다 XML의 경우 태그는 HTML처럼 여는 괄호와 닫는 꺽쇠 괄호를 사용합니다

다시, 주요 차이점은 당신이 원하는대로 태그를 자유롭게 정의 할 수 있다는 것입니다 그래서 예를 들어, iTunes에 대해 생각하면 장르의 태그를 정의 할 수 있으며 꺾쇠 괄호 장르로 그 정보를 시작하면 백 슬래시가있는 꺾쇠 괄호가 생깁니다 당신이 그 정보로 끝났음을 알리는 것입니다 또는 작곡가를 위해 할 수 있습니다 또는 등급을 매기기 위해 그것을 할 수도 있고, 코멘트를 위해 그것을 할 수도 있고, 태그를 만들 수 있습니다 당신은 그 두 가지 사이에 정보를 넣고 싶습니다

이제 예를 들어 봅시다 어떻게 작동하는지 웹에서 나오는 빠른 데이터 세트를 보여 드리겠습니다 그 ergastcom 및 API에서 자동차 수식에 대한 정보를 저장하는 웹 사이트입니다

하나의 경주 이 웹 페이지로 가서 그것이 무엇인지 잠깐 살펴 보겠습니다 그래서, 여기 우리는 Ergastcom에 있으며, 그것은 Formula One 용 API입니다 그리고 제가 가져 오는 것은 결과입니다

포뮬러 원 경주에서 1957 시즌의 그리고 여기에서 경쟁자가 누구인지를 볼 수 있습니다 각 레이스에서, 그리고 그들이 어떻게 끝내 었는지 등등 따라서 이것은 표시되는 데이터 집합입니다 웹 페이지에서 XML로 어떻게 보이는지 알고 싶다면 입력하십시오

XML의 끝 부분 : XML 나는 이미 그렇게 해왔다 그래서 나는 단지 그것에 갈 것이다 하나

보시다시피, 제가 추가 한 것은이 비트입니다 : XML 이제, 웹 페이지가 기본적으로 XML 데이터를 구성하기 때문에 동일하지만, 원시 형식처럼 보이고, 옵션을 수행하고, 웹 페이지를 클릭하고,보기로 이동합니다 페이지 소스 적어도 Chrome에서 작동하는 방식이며 구조화 된 XML입니다

페이지 여기에 태그가 있음을 알 수 있습니다 레이스 이름, 서킷 이름, 위치 및 분명히 표준 HTML 태그가 아닙니다 그들은 이것의 목적을 위해 정의됩니다 특정 데이터 세트

그러나 우리는 하나부터 시작합니다 회로 이름이 있습니다 그리고 나서 우리는 거기에 백 슬래시를 사용하여 닫습니다 그리고 이것은 구조화 된 데이터입니다 컴퓨터 그것을 읽는 법을 알고 있습니다

정확히 이것은 이것이 기본적으로 그것을 어떻게 표시하는지입니다 그래서, 그것은 데이터를 표시하는 정말 좋은 방법이며 데이터를 가져 오는 방법을 알기위한 좋은 방법입니다 편물 실제로 API라고하는 응용 프로그램 프로그래밍 인터페이스 이 XML 데이터에 액세스하고 작업 구조를 가져옵니다 정말 쉽습니다

더욱 흥미로운 점은 XML 데이터를 가져와 변환하는 것이 얼마나 쉬운 지입니다 형식이 다르며 컴퓨터가 자신의 존재를 알고 있기 때문에 다른 형식간에 다루고있어 예를 들어 XML을 CSV 또는 쉼표로 쉽게 변환 할 수 있습니다 값 파일 (스프레드 시트 형식)입니다 아르; 각 열에 어떤 정보가 들어 있는지

예 2 : 변환하기가 정말 쉽습니다 제한된 태그 세트로 HTML을 생각할 수 있기 때문에 HTML 문서를 XML로 변환 할 수 있습니다 훨씬 더 자유로운 XML의 부분 집합 세 번째로 CSV 또는 스프레드 시트를 쉼표로 구분 된 값을 XML로, 그 반대의 경우도 마찬가지입니다 그들을 앞뒤로 바운스 할 수 있습니다

구조는 당신이 작업하고있는 프로그램에 명확 해집니다 그래서 요약하면 다음과 같습니다 우리는 말할 수있다 첫째, XML은 반 구조화 된 데이터입니다 그것이 의미하는 바는 태그가 있다는 것입니다

컴퓨터에 정보가 무엇인지 알려주지 만 태그를 만들 수 있습니다 그들이되기를 바란다 XML은 웹 데이터에 매우 일반적이며 번역하기가 쉽습니다 형식 XML / HTML / CSV 등등 다시 번역하기가 쉽습니다

데이터를 조작 할 때 많은 유연성을 제공하므로 형식을 사용할 수 있습니다 당신은 당신의 분석을 위해 필요합니다 "코딩 및 데이터 과학"에 대해 언급하고 싶은 마지막 사항 웹 데이터는 JSON이라고하는 것입니다 그리고 저는 그것을 더 작은 버전으로 생각하고 싶습니다 더 나은

JSON의 약자는 자바 스크립트 객체 표기법입니다 한마디로 그리고 그것은 XML과 마찬가지로 JSON은 반 구조화 된 데이터입니다 그건, 데이터를 정의하는 태그가 있으므로 컴퓨터는 각 정보의 내용 하지만 XML과 마찬가지로 태그는 자유롭게 다를 수 있습니다 XML 사이에는 많은 공통점이 있습니다

및 JSON 그래서 XML은 Markup Language입니다 (ML이 의미하는 것입니다) 이것은 의미를 부여합니다 본문; 컴퓨터가 각 정보가 무엇인지 알 수 있습니다 또한 XML을 사용하면 문서에 주석을 달아서 메타 데이터를 태그에 넣을 수 있습니다

그래서 꺽쇠 괄호 안에 실제로 정보를 넣어 추가 정보를 제공 할 수 있습니다 문맥 JSON은 데이터 교환을 위해 특별히 설계되었으므로 그 특별한 초점이있어 그리고 구조; JSON은 데이터 구조에 해당합니다 객체와 배열, 숫자와 문자열, 부울을 직접 나타냄을 알 수 있습니다

이는 데이터를 분석하는 데 사용되는 프로그램과 잘 작동합니다 또한 JSON은 일반적으로 닫는 태그가 필요 없기 때문에 XML보다 짧습니다 이제는 할 수있는 방법이 있습니다 그것은 XML과 함께하지만, 일반적으로 어떻게 완료되었는지는 아닙니다 이러한 차이의 결과로, JSON은 기본적으로 웹 데이터에서 XML의 위치를 ​​차지합니다

여전히 존재하는 XML은 여전히 ​​사용됩니다 많은 것들이 있지만 JSON은 천천히 그것을 대체하고 있습니다 그리고 우리는 비교를 살펴볼 것입니다 우리가 XML에서 사용한 예제로 돌아가서 세 가지 사이에서 이것은 수식에 관한 데이터입니다

한 자동차는 ergastcom에서 1957 년에 경쟁합니다 첫 번째 웹 페이지로 이동하면됩니다 우리는 다른 것들로 이동합니다 그래서 이것은 일반적인 페이지입니다

당신이 XML 또는 JSON 또는 아무것도 입력하지 않고 입력하십시오 그래서 그것은 정보 테이블입니다 우리는 이전에

XML을 끝에 추가하면된다고 보았습니다 그것은 똑같은 것처럼 보입니다 이 브라우저가 XML을 올바르게 표시하기 때문입니다 태만 그러나, 만약 당신이 그것을 오른쪽 클릭하고, 페이지 소스를 보러 간다면, 당신은 대신 이것을 얻으면 구조를 볼 수 있습니다

이것은 여전히 ​​XML이므로 모든 것이 여는 태그와 닫는 태그 및 거기에 몇 가지 추가 정보 그러나 입력 할 경우 JSON 당신이 정말로 얻는 것은이 뒤죽박죽이다 이제 불행한 점이 있습니다 이것에 많은 구조가 있습니다

그래서, 내가 할 일은, 실제로 갈거야 이 모든 데이터를 복사 한 다음 작은 웹 페이지로 이동합니다 많은 것들이있다 당신은 여기에서 할 수 있고, 그것은 귀여운 문구입니다 JSON Pretty Print라고합니다

그리고 그것은 make입니다 구조적으로 보이기 때문에 읽기가 더 쉽습니다 나는 거기에 붙이고 Pretty를 쳤어 JSON을 인쇄하면 이제 데이터의 계층 적 구조를 볼 수 있습니다 흥미로운 것 JSON 태그는 시작 부분에만 태그가 있습니다

시리즈를 따옴표로 묶어 말합니다 콜론을 입력하면 따옴표로 된 정보와 쉼표가 주어지며 다음 그리고 이것은 데이터가 무언가에 표현되는 방식과 훨씬 비슷합니다 R 또는 Python과 같은 또한보다 콤팩트합니다

다시 말하지만, XML로 할 수있는 일이 있습니다 하지만 이것이 JSON이 웹 사이트의 데이터 통신 업체로 선호되는 이유 중 하나입니다 짐작할 수 있듯이 형식을 변환하는 것은 정말 쉽습니다 그것은 간단합니다 XML, JSON, CSV 등으로 변환 할 수 있습니다 버전을 붙여 넣을 수있는 웹 페이지를 얻을 수 있습니다 안으로 들어가면 다른 버전이 나옵니다

몇 가지 차이점이 있지만 대다수의 사람들에게는 상황의 경우, 그들은 상호 교환 가능합니다 합계 : 우리는 이것을 어떻게 얻었습니까? XML과 마찬가지로, JSON은 정보가 무엇인지 말하는 태그가있는 반 구조화 된 데이터입니다 하지만 원하는대로 태그를 정의 할 수 있습니다 JSON은 데이터 교환을 위해 특별히 설계되었습니다 프로그램의 데이터 구조를 반영하기 때문에 실제로 쉬운

또한 상대적으로 조밀하기 때문에 JSON이 점차 웹상의 XML을 대체하고 있습니다 웹 페이지의 데이터 컨테이너입니다 우리가 "코딩 및 데이터" 과학 "과 사용 된 언어가 가장 중요합니다 즉, 많은 표준에 따르면, R은 데이터 및 데이터 과학의 언어입니다 에 대한 예를 들어이 차트를 살펴보십시오

이것은 데이터 마이닝에 대한 조사를 기반으로 한 순위입니다 그들이 일하는 데 사용하는 소프트웨어의 전문가이며, R이 바로 위에 있습니다 R이 처음이며, 실제로 중요한 것은 파이썬이 보통 손에 잡혀 있기 때문입니다 데이터 과학을위한 R과 손 잡고 그러나 R은 Python이 사용하는 것보다 50 % 더 많이 사용합니다 이 특별한 목록

그 인기에 대한 몇 가지 이유가 있습니다 번호 하나, R은 무료입니다 오픈 소스이기 때문에 두 가지 모두 매우 쉽습니다 둘째, R이 특별히 개발되었습니다 벡터 연산

이는 데이터없이 전체 데이터 목록을 처리 할 수 ​​있음을 의미합니다 'for'루프를 작성해야합니다 혹시 for 루프를 써야한다면, 당신은 그것이 데이터 분석으로 그렇게하는 것이 비참한 일이라는 것을 알고 있습니다 다음 것, R에는 멋진 커뮤니티가 있습니다 R, 당신을 가진 것에 도움을 얻는 것은 아주 쉽습니다

구글, 당신은 좋은 곳을 찾을 수있는 곳으로 가게 될 것입니다 당신이 필요로하는 것들의 예 그리고 아마도 가장 중요한 것은 R이 매우 유능하다는 것입니다 R에는 7,000 명이있다 R에 기능을 추가하는 패키지

본질적으로 모든 것을 할 수 있습니다 자, 일할 때 R을 사용하면 실제로 인터페이스를 선택할 수 있습니다 즉, 코딩을 실제로 수행하는 방법과 결과를 얻는 방법 R은 자체 IDE 또는 대화 형 개발 환경과 함께 제공됩니다

그렇게 할 수 있습니다 Mac 또는 Linux를 사용하는 경우 실제로 R을 할 수 있습니다 명령 행을 통해 터미널 R을 설치 한 경우 R을 입력하면 시작됩니다 쪽으로

RStudiocom이라는 매우 유명한 개발 환경도 있습니다 사실 제가 사용하는 것과 제가 모든 예를 위해 사용할 것입니다 그러나 다른 새로운 경쟁자는 Jupyter로, Python에서 매우 일반적으로 사용됩니다 그게 내가 예제에 사용하는거야

그곳에 로컬로 설치된 경우에도 브라우저 창에서 작동합니다 그리고 RStudio 그리고 Jupyter에는 각각 플러스와 마이너스가 있습니다 그들 각각에게 그러나 어떤 인터페이스를 사용하든 관계없이 R의 명령 줄에는 입력하는 줄이 있습니다

명령을 얻기 위해 코드를 수정해야합니다 어떤 사람들은 그것에 대해 정말로 두려워하게됩니다 복제 가능성과 실제로 접근성 측면에서 이점이 있습니다 명령의 투명성 예를 들어, 여기에 몇 가지 간단한 예제가 있습니다

R의 명령 콘솔이라고 불리는 것에 입력 할 수 있습니다 한 번에 한 줄씩 표시 할 수 있습니다 또는 스크립트를 저장하고 비트를 실행할 수 있습니다 조각을 선택적으로 사용하면 삶이 훨씬 쉬워집니다

당신이 그것을 어떻게해도, 만약 당신이 다른 언어를 프로그래밍하는 것에 익숙하다면 R 's 좀 이상하다 그것은 특이한 모델을 가지고 있습니다 일단 익숙해지면 말이됩니다 다른 접근법이기 때문에 프로그래밍에 익숙하다면 약간의 적응이 필요합니다 다른 언어로

이제 출력을 얻기 위해 프로그래밍을 한 후에는 그래프는 별도의 창에 표시됩니다 텍스트와 숫자, 숫자를 얻을 것입니다 출력을 콘솔에 저장할 수 있으며 출력 내용을 파일에 저장할 수 있습니다 따라서 이식성이 뛰어나고 다른 환경에서도 사용할 수 있습니다 그러나 가장 중요한 것은, 저는 이것을 생각하고 있습니다

여기에 당신이 무엇인지 모를 초콜릿 상자가 있습니다 얻을 것입니다 R의 아름다움은 기능을 확장하는 데 사용할 수있는 패키지에 있습니다 이제는 R에 대한 두 가지 패키지 소스가 있습니다 하나는 CRAN이라는 이름으로 사용되며, Comprehensive R Archive Network의 약자로 cran

rstudiocom에 있습니다 그리고 그게 뭐야? does는 사용할 수있는 7,000 개의 다른 패키지를 받아서 작업보기라고 부르는 항목 그리고 각자 숙제를했다면, 패키지와 함께 제공되는 데이터 세트가 있습니다pdf 형식의 설명서가 있습니다

어떻게하는지 보여주는 예를 통해 비 네트를 사용할 수도 있습니다 다른 인터페이스는 Crantastic! 그리고 느낌표는 제목의 일부입니다 그리고 그곳에 있습니다 crantasticorg

그리고 이것이 무엇인지, CRAN에 연결되는 대체 인터페이스입니다 그래서 찾으면 당신이 좋아하는 무언가를 Crantastic! 링크를 클릭하면 CRAN에서 열립니다 그러나 Crantastic에 관한 멋진 물건! 그것은 패키지의 인기를 보여 주며, 또한 최근에 그들이 업데이트 된 방법을 보여줍니다 그리고 그것은 당신이 알고있는 좋은 방법이 될 수 있습니다 최신이고 가장 위대한 것의 종류

이제이 매우 추상적 인 프리젠 테이션을 통해 우리는 R에 관한 몇 가지 사실 : 많은 사람들에 따르면, R은 데이터 과학의 언어입니다 명령 줄 인터페이스입니다 코드 줄을 입력하면 두 줄을 모두 얻을 수 있습니다 어떤 사람들에게는 힘과 도전이됩니다 그러나 아름다운 것은 수천 R에 사용할 수있는 수천 개의 추가 코드 및 기능 패키지, 이 통계 프로그래밍 언어에서 거의 모든 것을 할 수있게하십시오

언제, "코딩 및 데이터 과학"에 대해 이야기하고 R과 함께 언어에 대해 이야기해야합니다 파이썬에 대해 이제 파이썬 뱀은 모든 것을 할 수있는 범용 프로그램입니다 그것은 그 아름다움입니다 데이터 마이닝에 사용 된 소프트웨어에 대한 설문 조사로 돌아 가면 전문가라면 파이썬이 있고 목록에 3이라는 것을 알 수 있습니다

중요한 것 이 목록에있는 것이 파이썬이 유일한 범용 프로그래밍 언어입니다 이론적으로 모든 종류의 응용 프로그램을 개발하는 데 사용할 수있는 유일한 도구입니다 네가 원해 그것은 다른 모든 것에 비해 특별한 힘을 주며, 그 중 대부분은 데이터 과학 작업에 매우 특정 적입니다 파이썬에 관한 좋은 점은 첫째, 그것은 일반적인 목적입니다

또한 사용하기 쉽고 매킨토시 또는 리눅스를 사용하는 경우 컴퓨터에 Python이 내장되어 있습니다 또한 파이썬에는 수백 가지의 멋진 커뮤니티가 있습니다 수천 명의 사람들이 참여했으며, 파이썬에는 수천 개의 패키지가 있습니다 자, 이제 실제로 70 또는 80,000 패키지가 있지만 데이터 용 패키지의 측면에서 보면 아직도 그것에게 약간 믿을 수없는 기능을주는 수천 유효한 몇 가지 파이썬에 대해 알고 싶습니다

첫째, 버전에 관한 것입니다 파이썬에는 두 가지 버전이 있습니다 넓은 순환 : 2x가 있습니다 2

5, 26, 3x와 같은 의미입니다 그래서 31, 3

2 버전 2와 버전 3은 비슷하지만 동일하지 않습니다 사실, 문제는 이 : 하나에서 실행되는 코드가 실행되지 않는 몇 가지 호환성 문제가 있습니다 다른 하나 따라서 대부분의 사람들은 하나와 다른 것을 선택해야합니다

그리고 뭐 이것은 많은 사람들이 여전히 2x를 사용한다는 것입니다 나는 그 예들에서 사용하는 데이터 과학 패키지가 너무 많아서 2x를 사용하고 있습니다 그걸 염두에 두시오

이제 파이썬 용 인터페이스에 대해 몇 가지 말씀 드리겠습니다 첫째, 파이썬 자체 인터랙티브 개발 학습 환경 (Interactive Development Learning Environment)과 함께 제공되며 IDLE이라고합니다 또한 터미널이나 명령 줄 인터페이스 또는 다른 IDE에서 실행할 수도 있습니다 있다 매우 일반적이며 매우 좋은 선택은 Jupyter입니다

Jupyter는 브라우저 기반 프레임 워크입니다 프로그래밍을 위해 그리고 그것은 원래 IPython이라고 불렸다 그것의 초기 역할을 했으므로 많은 사람들이 IPython에 대해 이야기 할 때, 그들이 실제로 이야기하고있는 것들 이 파이썬은 Jupyter에 있으며 두 개는 때때로 같은 의미로 사용됩니다 하나의 당신이 할 수있는 깔끔한 것들에는 Continuum과 Enthought의 두 회사가 있습니다 둘 다 수백, 수백 개의 사전 구성된 Python 배포판을 만들었습니다

데이터로 작업하기가 매우 쉽습니다 개인적으로 Continuum Anaconda를 선호합니다 내가 사용하는 것, 다른 많은 사람들이 사용하는 것이지만 어느 것이 든 작동 할 것입니다 그것은 당신을 일으키고 달릴 것입니다 그리고 R과 마찬가지로, 어떤 인터페이스 당신은 모두 명령 줄입니다

코드 줄을 입력하고 있습니다 다시 한번 말하지만, 엄청난 것이 있습니다 그러나 그 힘은 처음에는 어떤 사람들에게는 협박 할 수 있습니다 실제 측면에서 파이썬의 명령, 여기에 몇 가지 예가 있습니다 중요한 것은 텍스트 인터페이스임을 기억하십시오

반면에 파이썬은 수백만에 익숙합니다 왜냐하면 그것은 종종 사람들이 일반적인 것을 배우는 첫 번째 프로그래밍 언어이기 때문입니다 목적 프로그래밍 데이터를 만드는 데 아주 간단한 방법이 많이 있습니다 그것은 데이터 과학 작업에 매우 강력합니다

다시 말하자면 데이터 과학 Jupyter를 좋아하고 Jupyter는 브라우저 기반 프레임 워크입니다 로컬 설치이지만 웹 브라우저를 통해 액세스하면 정말 훌륭한 작업을 수행 할 수 있습니다 데이터 과학 이것에 대한 몇 가지 이유가 있습니다 당신이 주피터에서 일할 때 당신은 텍스트 출력을 사용하고 문서 서식 지정 방법으로 Markdown을 사용할 수 있습니다

그래픽이 코드 바로 아래에 표시되도록 인라인 그래픽을 얻을 수 있습니다 훌륭해 또한 수행 된 분석을 구성, 제시 및 공유하는 것이 매우 쉽습니다 Jupyter에서 어느 것이 당신이 데이터 과학을하는 방식에서 당신의 선택에 대한 강력한 경쟁자가됩니다 프로그램 작성

R과 같이 파이썬에 대한 또 다른 아름다운 것들 중 하나는 패키지 수천 사용할 수 있습니다 파이썬에는 하나의 메인 저장소가 있습니다 그것은 PyPI 이름 파이썬 패키지 색인을위한 것입니다 바로 여기에 8 만 명이 넘는다

패키지 중 7 개 또는 8,000 개는 데이터 관련 용도로 사용됩니다 패키지 중 일부는 과학적 컴퓨팅을위한 NumPy와 SciPy는 매우 익숙해 져야합니다 일반적으로; Matplotlib 및 Seaborn이라 불리는 그 개발은 데이터 시각화를위한 것입니다 및 그래픽 팬더는 통계 분석의 주요 패키지입니다

그리고 기계 용 배우기, 거의 아무것도 scikit-learn를 치지 않는다 그리고 실습 예제를 통해 파이썬, 나는이 모든 것을 프로그램의 힘을 보여주는 방법으로 사용할 것이다 데이터 작업 요약하면 몇 가지를 말할 수 있습니다 : 파이썬은 매우 인기있는 프로그램입니다 수백만 명의 사람들에게 매우 익숙하며 좋은 선택입니다 둘째, 모든 우리는 데이터 과학을 위해 자주 사용하는 언어를 사용합니다

목적 즉, 데이터 처리 이외의 많은 작업에 사용될 수 있습니다 또한 R과 같이 수천 개의 패키지를 제공하는 것에서 그 힘을 얻습니다 특히 데이터 과학 작업의 측면에서 그 기능을 확장하십시오 "코딩 옵션 In Data Science, "라고 말하면서 곧바로 마음에 들지 않는 언어 중 하나인데 데이터 과학이 Sequel 또는 SQL이라고 생각합니다

SQL은 데이터베이스의 언어이며 우리는 생각합니다 "왜 우리는 SQL로 작업하고 싶습니까?" 유명한 은행 강도 인 윌리 수든을 바꾸어 말하려합니다 그는 왜 은행을 털 었는지 설명하면서 분명히 설명했다 : "그것이 돈 "데이터 과학에서 SQL을 사용하는 이유는 그것이 데이터가있는 곳이기 때문입니다 데이터 마이닝 전문가들 간의 소프트웨어 순위에 대해 다시 한 번 살펴 보도록하겠습니다 SQL이 있습니다

목록의 세 번째 목록과이 목록의 첫 번째 데이터베이스 수단 예를 들어 다른 도구는 훨씬 더 멋지고 새롭고 빛나기는하지만 SQL 잠시 동안 매우 유능한 사람이었습니다 SQL에 대해 알아야 할 몇 가지 사항이 있습니다 당신 Sequel은 Structured Query Language (구조화 된 쿼리 언어)의 약자 임에도 불구하고 말입니다 SQL 응용 프로그램이 아니라 언어입니다

프로그램 SQL은 없습니다 다른 응용 분야에서 사용될 수 있습니다 주로 SQL은 관계형 데이터베이스 이것들은 구조화 된 데이터를 저장할 수있는 특별한 방법입니다 당신은 특별한 방법으로 그것들을 합칠 수 있습니다, 당신은 요약 통계를 얻을 수 있습니다, 그런 다음 일반적으로 수행하는 작업은 해당 데이터를 분석 응용 프로그램으로 내보내는 것입니다 선택의 여지가

여기서 가장 중요한 것은 RDBMS – 관계형 데이터베이스 관리 시스템 (Relational Database Management System)입니다 그곳은 일반적으로 SQL이 사용되는 쿼리 언어로 간주됩니다 관계형 데이터베이스 측면에서 관리 시스템에는 매우 일반적인 선택 사항이 몇 가지 있습니다 산업 사회에서 사람들 지출 할 돈이 있으니 오라클 데이터베이스는 매우 일반적이며 Microsoft SQL Server입니다 In the open source world, two very common choices are MySQL, even though we generally say Sequel, when it's here you generally say MySQL

Another one is PostgreSQL 이것들은 both open source, free versions of the language; sort of dialects of each, that make it possible for you to working with your databases and for you to get your information out The neat thing about them, no matter what you do, databases minimize data redundancy by using connected tables Each table has rows and columns and they store different levels or different of abstraction or measurement, which means you only have to put the information one place and then it can refer to lots of other tables Makes it very easy to keep things organized and up to date

When you are looking into a way of working with a Relational Database Management System, you get to choose in part between using a graphical user interface or GUI Some of those include SQL Developer and SQL Server Management Studio, two very common 선택 And there are a lot of other choices such as Toad and some other choices that are graphical interfaces for working with these databases There are also text-based interfaces So really, any command line interface, and any interactive development environment or programming tool is going to be able to do that

Now, you can think of yourself on the command deck of your ship and think of a few basic commands that are very important for working with SQL There are just a handful of commands that can get you where you need to go There is the Select command, where you're choosing the cases that you want to include From: says what tables are you going to be extracting them from Where: is a way of specifying conditions, and then Order By: obviously is just a way of putting it all 함께

This works because usually when you are in a SQL database you're just pulling out the information You want to select it, you want to organize it, and then what you are going to do is you are going to send the data to your program of choice for further analysis, like R or Python or whatever In sum here's what we can say about SQL: Number one, as a language it's generally associated with relational databases, which are very efficient and well-structured ways of storing data Just a handful of basic commands can be very useful when working with databases You don't have have to be a super ninja expert, really a handful

Five, 10 commands will probably get you everything you need out of a SQL database Then once the data is organized, the data is typically exported to some other program for analysis When you talk about coding in any field, one of the languages or one of the groups of languages that come up most often are C, C++, and Java These are extremely powerful applications and very frequently used for professional, production level coding In data science, the place where you will see these languages most often is in the bedrock

The absolute fundamental layer that makes the rest of data science possible 예를 들어, C and C++ C is from the '60s, C++ is from the '80s, and they have extraordinary wide usage, and their major advantage is that they're really really fast In fact, C is usually used as the benchmark for how fast is a language They are also very, very stable, which makes them really well suited to production-level code and, for instance, server use

무엇이 really neat is that in certain situations, if time is really important, if speeds important, then you can actually use C code in R or other statistical languages Next is Java 자바 is based on C++, it's major contribution was the WORA or the Write Once Run Anywhere 그만큼 idea that you were going to be able to develop code that is portable to different machines and different environments Because of that, Java is the most popular computer programming language overall against all tech situations

The place you would use these in data science, like I said, when time is of the essence, when something has to be fast, it has to get the job accomplished quickly, and it has to not break Then these are the ones you're probably going to use The people who are going to use it are primarily going to be engineers The engineers and the software developers who deal with the inner workings of the algorithms in data science or the back end of data science The servers and the mainframes and the entire structure that makes analysis possible

In terms of analysts, people who are actually analyzing the data, typically don't do hands-on work with the foundational 집단 They don't usually touch C or C++, more of the work is on the front end or closer to the high-level languages like R or Python In sum: C, C++ and Java form a foundational bedrock in the back end of data and data science They do this because they are very fast and they are very reliable On the other hand, given their nature that work is typically reserved for the engineers who are working with the equipment that runs in the back that makes the rest of the analysis possible

I want to finish our extremely brief discussion of "Coding in Data Sciences" and the languages that can be used, by mentioning one other that's called Bash Bash really is a great example of old tools that have survived and are still being used actively and productively with new data You can think of it this way, it's almost like typing on your typewriter You're working at the command line, you're typing out code through a command line interface or a CLI This method of interacting with computers practically goes back to the typewriter phase, because it predates monitors

So, before you even had a monitor, you would type out the code and it would print it out on a piece of paper The important thing to know about the command line is it's simply a method of interacting It's not a language, because lots of languages can run at the command line For instance, it is important to talk about the concept of a shell In computer science, a shell is a language or something that wraps around the computer

It's a shell around the language, that is the interaction level for the user to get things done at the lower level that aren't really human-friendly On Mac computers and Linux, the most common is Bash, which is short for Bourne Again Shell On Windows computers, the most common is PowerShell But whatever you do there actually are a lot of choices, there's the Bourne Shell, the C shell; which is why I have a seashell right here, the Z shell, there's fish for Friendly Interactive Shell, and a whole bunch of other choices Bash is the most common on Mac and Linux and PowerShell is the most common on Windows as a method of interacting with the computer at the command line level

There's a few things you need to know about this You have a prompt of some kind, in Bash, it's a dollar sign, and that just means type your command here Then, the other thing is you type one line at a time It's actually amazing how much you can get done with a one-liner program, by sort of piping things together, so one feeds into the other You can run more complex commands if you use a script

그래서, you call a text document that has a bunch of things in it and you can get much more elaborate analyses done Now, we have our tools here In Bash we talk about utilities and what these are, are specific programs that accomplish specific tools Bash really thrives on "Do one thing, and do it very well" There are two general categories of utilities for Bash

Number one, is the Built-ins These are the ones that come installed with it, and so you're able to use it anytime by simply calling in their name Some more common ones are: cat, which is for catenate; that's to put information together There's awk, which is it's own interpreted language, but it's often used for text processing from the command line By the way, the name 'Awk' comes from the initials of the people who created it

Then there's grep, which is for Global search with a Regular Expression and Print 그 a way of searching for information And then there's sed, which stands for Stream Editor and its main use is to transform text You can do an enormous amount with just these 4 utilities A few more are head & tail, display the first or last 10 lines of a document

Sort & uniq, which sort and count the number of unique answers in a document Wc, which is for word count, and printf which formats the output that you get in your console 과 while you can get a huge amount of work done with just this small number of built-in utilities, there are also a wide range of installable Or, other command line utilities that you can add to Bash, or whatever programming language you're using So, since some really good ones that have been recently developed are jq: which is for pulling in JSON or JavaScript, object notation data from the web

And then there's json2csv, which is a way of converting JSON to csv format, which is what a lot of statistical programs are going to be happy 와 There's Rio which allows you to run a wide range of commands from the statistical programming language R in the command line as part of Bash And then there's BigMLer This is a command line tool that allows you to access BigML's machine learning servers through the command line Normally, you do it through a web browser and it accesses their servers remote

It's an amazingly useful program but to be able to just pull it up when you're in the command line is an enormous benefit What's interesting is that even though you have all these opportunities, all these different utilities, you can do all amazing things And there's still an active element of utilities for the command line So, in sum: despite being in one sense as old as the dinosaurs, the command line survives because it is extremely well evolved and well suited to its purpose of working with data The utilities; 양자 모두 the built-in and the installable are fast and they are easy

In general, they do one thing and they do it very, very well And then surprisingly, there is an enormous amount of very active development of command line utilities for these purposes, especially with data science One critical task when you are Coding in Data Science is to be able to find the things that you are looking for, and Regex (which is short of Regular Expressions) is a wonderful way to do that You can think of it as the supercharged method for finding needles in haystacks Now, Regex tends to look a little cryptic so, for instance, here's an example

As something that's designed to determine if something is a valid email address, and it specifies what can go in the beginning, you have the at sign in the middle, then you've got a certain number of letters and numbers, then you have to have a dot something at the 종료 And so, this is a special kind of code for indicating what can go where Now regular expressions, or regex, are really a form of pattern matching in text And it's a way of specifying what needs to be where, what can vary, and how much it can vary And you can write both specific patterns; say I only want a one letter variation here, or a very general like the email validator that I showed you

And the idea here is that you can write this search pattern, your little wild card thing, you can find the data and then once you identify those cases, then you export them into another program for analysis So here's a short example of how it can work What I've done is taken some text documents, they're actually the texts to Emma and to Pygmalion, two books I got off of Project Gutenberg, and this is the command Grep ^lve *

txt – so what I'm looking for in either of these books are lines that start with 'l', then they can have one character; can be whatever, then that's followed by 've', and then the txt means search for all the text files in the particular 폴더 And what it found were lines that began with love, and lived, and lovely, and 곧 Now in terms of the actual nuts and bolts of regular expressions, there are some certain elements There are literals, and those are things that are exactly what they 평균

You type the letter 'l', you're looking for the letter 'l' There are also metacharacters, which specify, for instance, things need to go here; they're characters but are really code that give representations Now, there are also escape sequences, which is normally this character is used as a variable, but I want to really look for a period as opposed to a placeholder Then you have the entire search expression that you create and you have the target string, the thing that it is searching through So let me give you a few very short examples

^ this is the caret This is the sometimes called a hat or in French, a circonflexe What that means, you're looking for something at the beginning of the search you are searching For example, you can have ^ and capital M, that means you need something that begins with capital M For instance the word "Mac," true, it will find that

하지만 you have iMac, it's a capital M, but it's not the first letter and so that would be false, it won't find that The $ means you are looking for something at the end of the 끈 So for example: ing$ that will find the word 'fling' because it ends in 'ing', but it won't find the word 'flings' because it actually ends with an 's' 그리고 나서 dot, the period, simply means that we are looking for one letter and it can be anything So, for example, you can write 'at

' And that will find 'data' because it has an 'a', a 't', and then one letter after it But it won't find 'flat', because 'flat' doesn't have anything after the 'at' And so these are extremely simple examples of how it can work Obviously, it gets more complicated and the real power comes when you start combining these bits and elements

Now, one interesting thing about this is you can actually treat this as a game I love this website, it's called Regex golf and it's at regexalfnu And what it does is brings up lists of words; two columns, and your job is to write a regular expression in the top, that matches all the words on the left column and none of the words 오른쪽으로

And uses the fewest characters possible, and you get a score! And it's a great way of learning how to do regular expressions and learning how to search in a way that is going to get you the data you need for your projects So, in sum: Regex, or regular expressions, help you find the right data for your project, they're very powerful and they're very flexible Now, on the other hand, they are cryptic, at least when you first look at them but at the same time, it's like a puzzle and it can be a lot of fun if you practice it and you see how you can find what you need I want to thank you for joining me in "Coding in Data Science" and we'll wrap up this course by talking about some of the specific next steps you can take for working in data science The idea here, is that you want to get some tools and you want to start working with those tools

Now, please keep in mind something that I've said at another time Data tools and data science are related, they're important but don't make the mistake of thinking that if you know the tools that you have done the same thing as actually conducted data science That's not true, people sometimes get a little enthusiastic and they get a little carried away What you need to remember is the relationship really is this: Data Tools are an important part of data science, but data science itself is much bigger than just the tools Now, speaking of tools remember there's a few kinds that you can use, and that you might want to get some experience with these

#1, in terms of just Apps, specific built applications Excel & Tableau are really fundamental for both getting the data from clients or doing some basic data browsing and Tableau is really wonderful for interactive data visualization I strongly recommend you get very comfortable with both of those In terms of code, it's a good idea to learn either 'R' or 'Python' or ideally to learn both Ideally because you can use them hand in hand In terms of utilities, it's a great idea to work with Bash, the command line utility and to use regular expression or regex

You can actually use those in lots and lots of programs; 정규병 표현 So they can have a very wide application And then finally, data science requires some sort of domain expertise You're going to need some sort of field experience or intimate understanding of a particular domain and the challenges that come up and what constitutes workable answers and the kind of data that's available Now, as you go through all of this, you don't need to build this monstrous list of things

생각해 내다, you don't need everything You don't need every tool, you don't need every function, you don't need every approach Instead remember, get what's best for your needs, and for your 스타일 But no matter what you do, remember that tools are tools, they are a means to 끝 Instead, you want to focus on the goal of your data science project whatever 그것은

And I can tell you really, the goal is in the meaning, extracting meaning out of your data to make informed choices In fact, I'll say a little more The goal is always meaning And so with that, I strongly encourage you to get some tools, get started in data science and start finding meaning in the data that's around you 에 오신 것을 환영합니다 "Mathematics in Data Science"

I'm Barton Poulson and we're going to talk about how Mathematics matters for data science Now, you maybe saying to yourself, "Why math?", and "Computers can do it, I don't need to do it" And really fundamentally, "I don't need math I am just here to do my work" Well, I am here to tell you, No You need math

That is if you want to be a data scientist, and I assume that you do 그래서 우리는 가고있다 to talk about some of the basic elements of Mathematics, really at a conceptual level and how they apply to data science There are few ways that math really matters to data 과학 #1, it allows you to know which procedures to use and why

So you can answer your questions in a way that is the most informative and the most useful #2, if you have a good understanding of math, then you know what to do when things don't work right That you get impossible values or things won't compute, and that makes a huge difference And then #3, an interesting thing is that some mathematical procedures are easier and quicker to do by hand then by actually firing up the computer And so for all 3 of these reasons, it's really helpful to have at least a grounding in Mathematics if you're going to do work in data science

Now probably the most important thing to start with in Algebra And there are 3 kinds of algebra I want to mention The first is elementary algebra, that's the regular x+y Then there is Linear or matrix algebra which looks more complex, but is conceptually it is used by computers to actually do the calculations And then finally I am going to mention Systems of Linear Equations where you have multiple equations simultaneously that you're trying to solve

Now there's more math than just algebra A few other things I'm going to cover 이 과정에서 Calculus, a little bit of Big O or order which has to do with the speed and complexity of operations A little bit of probability theory and a little bit of Bayes or Bayes theorem which is used for getting posterior probabilities and changes the way you interpret the results of an analysis And for the purposes of this course, I'm going to demonstrate the procedures by hand, of course you would use software to do this in the real world, but we are dealing with simple problems at conceptual levels

And really, the most important thing to remember is that even though a lot of people get put off by math, really You can do it! And so, in sum: let's say these three things about math 먼저 off, you do need some math to do good data science It helps you diagnose problems, it helps you choose the right procedures, and interestingly you can do a lot of it by hand, or you can use software computers to do the calculations as well As we begin our discussion of the role of "Mathematics and Data Science", we'll of course begin with the foundational 집단 And in data science nothing is more foundational than Elementary Algebra

지금, I'd like to begin this with really just a bit of history In case you're not aware, the first book on algebra was written in 820 by Muhammad ibn Musa al-Khwarizmi 그리고 그것 was called "The Compendious Book on Calculation by Completion and Balancing" Actually, it was called this, which if you transliterate that comes out to this, but look at this word 바로 여기에 That's the algebra, which means Restoration

In any case, that's where it comes from and for our concerns, there are several kinds of algebra that we're going 얘기하고 There's Elementary Algebra, there's Linear Algebra and there are systems of linear equations We'll talk about each of those in different videos But to put it into context, let's take an example here of salaries Now, this is based on real data from a survey of the salary of people employed in data science and to give a simple version 그것의

The salary was equal to a constant, that's sort of an average value that everybody started with and to that you added years, then some measure of bargaining skills and how many hours they worked per week And that gave you your prediction, but that wasn't exact there's also some error to throw into it to get to the precise value that each person has Now, if you want to abbreviate this, you can write it kind of like this: S + C + Y + B + H + E, although it's more common to write it symbolically like this, and let's go through this equation very quickly The first thing we have is outcome,; we call that y the variable y for person i, "i" stands for each case in our observations So, here's outcome y for person i

This letter here, is a Greek Beta and it represents the intercept or the average, that's why it has a zero, because we don't multiply it times anything But right next to it we have a coefficient for variable 1 So Beta, which means a coefficient, sub 1 for the first variable and then we have variable 1 then x 1, means variable 1, then i means its the score on that variable for person i, whoever we are talking about 그때 we do the same thing for variables 2 and 3, and at the end, we have a little epsilon here with an i for the error term for person i, which says how far off from the prediction was their actual score Now, I'm going to run through some of these procedures and we'll see how they can be applied to data science

But for right now let's just say this in sum First off, Algebra is vital to data science It allows you to combine multiple scores, get a single outcome, do a lot of other manipulations And really, the calculations, their easy for one case at at time Especially when you're doing it by hand

The next step for "Mathematics for Data Science" foundations is to look at Linear algebra or an extension of elementary algebra And depending on your background, you may know this by another name and I like to think welcome to the Matrix Because it's also known as matrix algebra because we are dealing with matrices Now, let's go back to an example I gave in the last video about salary Where salary is equal to a constant plus years, plus bargaining, plus hours plus error, okay that's a way to write it out in words and if you want to put it in symbolic form, it's going to look like this

Now before we get started with matrix algebra, we need to talk about a few new words, maybe you're familiar with them already The first is Scalar, and this means a single number And then a vector is a single row or a single column of numbers that can be treated as a collection That usually means a variable And then finally, a matrix consists of many rows and columns

Sort of a big rectangle of numbers, the plural of that by the way is matrices and the thing to remember is that Machines love Matrices Now let's take a look at a very simple example of this Here is a very basic representation of matrix algebra or Linear Algebra Where we are showing data on two people, on four 변수 So over here on the left, we have the outcomes for cases 1 and 2, our people 1 and 2

And we put it into the square brackets to indicate that it's a vector or a matrix Here on the far left, it's a vector because it's a single column of values Next to that is a matrix, that has here on the top, the scores for case 1, which I've written as x's X1 is for variable 1, X2 is for variable 2 and the second subscript is indicated that it's for person 1 Below that, are the scores for case 2, the second person

And then over here, in another vertical column are the regression coefficients, that's a beta there that we are using And then finally, we've got a tiny little vector here which contains the error terms for cases 1 and 2 Now, even though you would not do this by hand, it's helpful to run through the procedure, so I'm going to show it to you by hand And we are going to take two fictional people This will be fictional person #1, we'll call her Sophie

We'll say that she's 28 years old and we'll say that she's has good bargaining skills, a 4 on a scale of 5, and that she works 50 hours a week and that her salary is $118,00000 Our second fictional person, we'll call him Lars and we'll say that he's 34 years old and he has moderate bargaining skills 3 out of 5, works 35 hours per week and has a salary of $84,00000 And so if we are trying to look at salaries, we can look at our matrix representation that we had here, with our variables indicated with their Latin and sometimes Greek symbols

And we will replace those variables with actual numbers We have the salary for Sophie, our first person So why don't we plug in the numbers here and let's start with the result here Sophie's salary is $118,00000 and here's how all these numbers all add up to get that

The first thing here is the intercept And we just multiply that times 1, so that's sort of the starting point, and then we get this number 10, which actually has to do with years over 18 She's 28 so that's 10 years over 18, we multiply each year by 1395 Next is bargaining skills She's got a 4 out of 5 and for each step up you get $5,900

00 By the way, these are real coefficients from study of survey of salary of data scientists And then finally hours per week For each hour, you get $38200

Now you can add these up, and get a predicted value for her but it's a little low It's $30,0000 low 어느 you may be saying that's pretty messed up, well that's because there's like 40 variables in the equation including she might be the owner and if she's the owner then yes she's going to make a lot more And then we do a similar thing for the second case, but what's neat about matrix algebra or Linear Algebra is this means the same stuff and what we have here are these bolded variables

That stand in for entire vectors or matrices 그래서 instance; this Y, a bold Y stands for the vector of outcome scores This bolded X is the entire matrix of values that each person has on each variable This bolded beta is all of the regression coefficients and then this bolded epsilon is the entire vector of error terms And so it's a really super compact way of representing the entire collection of data and coefficients that you use in predicting values

So in sum, let's say this 우선, computers use matrices They like to do linear algebra to solve problems and is conceptually simpler because you can put it all in there in this type formation In fact, it's a very compact notation and it allows you to manipulate entire collections of numbers pretty easily And that's that major benefit of learning a little bit about linear or matrix algebra

Our next step in "Mathematics for Data Science Foundations" is systems of linear equations And maybe you are familiar with this, but maybe you're not And the idea here is that there are times, when you actually have many unknowns and you're trying to solve for them all simultaneously And what makes this really tricky is that a lot of these are interlocked Specifically that means X depends on Y, but at the same time Y depends on X

What's funny about this, is it's actually pretty easy to solve these by hand and you can also use linear matrix algebra to do it So let's take a little example here of Sales Let's imagine that you have a company and that you've sold 1,000 iPhone cases, so that they are not running around naked like they are in this picture here Some of them sold for $20 and others sold for $5 You made a total of $5,900

00 and so the question is "How many were sold at each price?" Now, if you were keeping our records, but you can also calculate it from this little bit of information And to show you I'm going to do it by hand Now, we're going to start with this We know that sales the two price points x + y add up to 1,000 total cases sold And for revenue, we know that if you multiply a certain number times $20 and another number times $5, that it all adds up to $5,900

00 Between the two of those we can figure out the rest Let's start with sales Now, what I'm going to do is try to isolate the values I am going to do that by putting in this minus y on both sides and then I can take that and I can subtract it, so I'm left with x is equal to 1,000 – y

Normally I solve for x, but I solve for y, you'll see why in just a second Then we go to revenue We know from earlier that our sales at these two prices points, add up to $5,90000 total Now what we are going to do is take the x that's right here and we are going to replace it with the equation we just got, which is 1,000 – y

Then we multiply that through and we get $20,00000 minus $20y plus $5 y equals $5,90000 Well, we can subtract these two because they are on the same thing So, $20y then we get $15y, and then we subtract $20,000

00 from both sides So there it is, right there on the left, and that disappears, then I get it over on the right side And then I do the math there, and I get minus $14, 10000 Well, then I divide both sides by negative $15

00 and when we do that we get y equals 940 Okay, so that's one of our values for sales Let's go back to sales We have x plus y equals 1,000 We take the value we just got, 940, we stick that into the equation, then we can solve for x

Just subtract 940 from each side, there we go We get x is equal to 60 So, let's put it all together, just to recap what happened What this tells us is that 60 cases were sold at $2000 each

And that 940 cases were sold at $5 each Now, what's interesting about this is you can also do this graphically We're going to draw it So, I'm going to graph the two equations Here are the original ones we had

This one predicts sales, this one gives price The problem is, these aren't in the economical form for creating graphs That needs to be y equals something else, so we're going to solve both of these for y We subtract x from both sides, there it is on the left, we subtract that Then we have y is equals to minus x plus 1,000

그게 something we can graph Then we do the same thing for price Let's divide by 5 all the way through, that gets rid of that and then we've got this 4x, then let's subtract 4x from each side And what we are left with is minus 4x plus 1,180, which is also something we can graph So this first line, this indicates cases sold

It originally said x plus y equals 1000, but we rearranged it to y is equal to minus x plus 1000 And so that's the line we have here And then we have another line, which indicates earnings And this one was originally written as $2000 times x plus $5

00 times y equals $5,90000 total We rearranged that to y equals minus 4x plus 1,180 That's the equation for the line and then the solution is right here at the intersection There's our intersection and it's at 60 on the number of cases sold at $20

00 and 940 as the number of cases sold at $500 and that also represents the solution of the joint equations It's a graphical way of solving a system of linear 방정식 So in sum, systems of linear equations allow us to balance several unknowns and find unique solutions And in many cases, it's easy to solve by hand, and it's really easy with linear algebra when you use software to do it at the same time

As we continue our discussion of "Mathematics for Data Science" and the foundational principles the next thing we want to talk about is Calculus And I'm going to give a little more history right 이리 The reason I'm showing you pictures of stones, is because the word Calculus is Latin for stone, as in a stone used for tallying Where when people would actually have a bag of stones and they would use it to count sheep or whatever And the system of Calculus was formalized in the 1,600s simultaneously, independently by Isaac Newton and Gottfried Wilhelm Leibniz

And there are 3 reasons why Calculus is important for data science #1, it's the basis for most of the procedures we do Things like least squares regression and probability distributions, they use Calculus in getting those answers Second one is if you are studying anything that changes over time If you are measuring quantities or rates that change over time then you have to use Calculus

Calculus is used in finding the maxima and minima of functions especially when you're optimizing Which is something I'm going to show you separately Also, it is important to keep in mind, there are two kinds of Calculus The first is differential Calculus, which talks about rates of change at a specific time It's also known as the Calculus of change

The second kind of Calculus is Integral Calculus and this is where you are trying to calculate the quantity of something at a specific time, given the rate of change It's also known as the Calculus of Accumulation So, let's take a look at how this works and we're going to focus on differential Calculus So I'm going to graph an equation here, I'm going to do y equals x2 a very simple one but it's a curve which makes it harder to calculate things like the slope Let's take a point here that's at minus 2, that's the middle of the red dot

X is equal to minus 2 And because y is equal to x2 , if we want to get the y value, all we got to do is take that negative 2 and square it and that gives us 4 So that's pretty easy So the coordinates for that red point are minus 2 on x, and plus 4 on the y Here's a harder question

"What is the slope of the curve at that exact point?" Well, it's actually a little tricky because the curve is always curving there's no flat part on it But we can get the answer by getting the derivative of the function Now, there are several different ways of writing this, I am using the one that's easiest to type And let's start by this, what we are going to do is the n here and that is the squared part, so that we have x2 And you see that same n turns into the squared, and then we come over here and we put that same value 2 in right there, and we put the two in right 이리

And then we can do a little bit of subtraction 2 minus 1 is 1 and truthfully you can just ignore that then then you get 2x That is the derivative, so what we have here is the derivative of x2 is 2x That means, the slope at any given point in the curve is 2x 그래서, let's go back to the curve we had a moment ago

Here's our curve, here's our point at x minus 2, and so the slope is equal to 2x, well we put in the minus 2, and we multiply it and we get minus 4 So that is the slope at this exact point in the curve 좋아 뭐라구? if we choose a different point? Let's say we came over here to x is equal to 3? 잘, the slope is equal to 2x so that's 2 times 3, is equal to 6 Great! And on the other hand, you might be saying to yourself "And why do I care about this?" There's a reason that this is important and what it is, is that you can use these procedures to optimize the decisions

And if that seems a little to abstract to you, that means you can use them to make more money And I'm going to demonstrate that in the next video But for right now in sum, let's say this Calculus is vital to practical data science, it's the foundation of statistics and it forms the core that's needed for doing optimization In our discussion about Mathematics and data science foundations, the last thing I want to talk about right here is calculus and how it relates to optimization

나는 생각하고 싶어한다 of this, in other words, as the place where math meets reality, or it meets Manhattan 또는 뭔가 Now if you remember this graph I made in the last video, y is equal to x2, that shows this curve here and we have the derivative that the slope can be given by 2x And so when x is equal to 3, the slope is equal to 6, fine And this is where this comes into play

Calculus makes it possible to find values that maximize or minimize outcomes And if you want to think of something a little more concrete here, let's think of an example, by the way that's Cupid and Psyche Let's talk about pricing for online dating 하자 assume you've created a dating service and you want to figure out how much can you charge for it that will maximize your revenue So, let's get a few hypothetical parameters involved

First off, let's say that subscriptions, annual subscriptions cost $50000 each year and you can charge that for a dating service And let's say you sell 180 new subscriptions every 주 On the other hand, based on your previous experience manipulating prices around, you have some data that suggests that for each $5 you discount from the price of $50000 you will get 3 more sales

Also, because its an online service, lets make our life a little more easier right now and assume there is no increase in overhead It's not really how it works, but we'll do it for now And I'm actually going to show you how to do all this 손으로 Now, let's go back to price first We have this

$50000 is the current annual subscription price and you're going to subtract $500 for each unit of discount, that's why I'm giving D So, one discount is $500, two discounts is $10

00 and so on 그리고 우리는 have a little bit of data about sales, that you're currently selling 180 subscriptions per week and that you will add 3 more for each unit of discount that you give So, what we're going to do here is we are going to find sales as a function of price 자, ~에 do that the first thing we have to do is get the y intercept So we have price here, is $500

00, is the current annual subscription price minus $5 times d And what we are going to do is, is we are going to get the y intercept by solving when does this equal zero? 괜찮아, well we take the $500 we subtract that from both sides and then we end up with minus $5d is equal to minus $50000 Divide both sides by minus $5 and we are left with d is equal to 100 That is, when d is equal to 100, x is 0

And that tells us how we can get the y intercept, but to get that we have to substitute this value into sales So we take d is equal to 100, and the intercept is equal to 180 plus 3; 180 is the number of new subscriptions per week and then we take the three and we multiply that times our 100 So, 180 times 3 times 100,[1] is equal to 300 add those together and you get 480 And that is the y intercept in our equation, so when we've discounted sort of price to zero then the expected sale is 480 Of course that's not going to happen in reality, but it's necessary for finding the slope of the line

So now let's get the slope The slope is equal to the change in y on the y axis divided by the change in x One way we can get this is by looking at sales; we get our 180 new subscriptions per week plus 3 for each unit of discount and we take our information on price $50000 a year minus $5

00 for each unit of discount and then we take the 3d and the $5d and those will give us the slope So it's plus 3 divided by minus 5, and that's just minus 06 So that is the slope of the line Slope is equal to minus 0

6 And so what we have from this is sales as a function of price where sales is equal to 480 because that is the y intercept when price is equal to zero minus 06 times 가격 So, this isn't the final thing Now what we have to do, we turn this into revenue, there's another stage to this

Revenue is equal to sales times price, how many things did you sell and how much did it cost Well, we can substitute some information in here If we take sales and we put it in as a function of price, because we just calculated that a moment ago, then we do a little bit of multiplication and then we get that revenue is equal to 480 times the price minus 06 times the price Okay, that's a lot of stuff going on there

What we're going to do now is we're going to get the derivative, that's the calculus 우리가 얘기 했어 Well, the derivative of 480 and the price, where price is sort of the x, the derivative is simply 480 and the minus 06 times price? Well, that's similar to what we did with the curve And what we end up with is 06 times 2 is equal to 1

2 times the price This is the derivative of the original equation We can solve that for zero now, and just in case you are wondering Why do we solve it for zero? 그 때문에 is going to give us the place when y is at a maximum Now we had a minus squared so we have to invert the shape

When we are trying to look for this value right here when it's at the very tippy top of the curve, because that will indicate maximum revenue 괜찮아, so what we're going to do is solve for zero Let's go back to our equation here We want to find out when is that equal to zero? Well, we subtract 480 from each side, there we go and we divide by minus 12 on each side

And this is our price for maximum revenue 그래서 we've been charging $50000 a week, but this says we'll have more total income if we charge $40000 instead And if you want to find out how many sales we can get, currently we have 480 and if you want to know what the sales volume is going to be for that

Well, you take the 480 which is the hypothetical y intercept when the price is zero, but then we put in our actual price of $40000, multiply that, we get 240, do the subtraction and we get 240 total So, that would be 240 new subscriptions per week So let's compare this Current revenue, is 180 new subscriptions per week at $500

00 per year And that means our current revenue is $90,00000 per year, I know it sounds really good, but we can do better than that 때문에 the formula for maximum value is 240 times $40000, when you multiply those you get $96,000

00 And so the improvement is just a ratio of those two $96,00000 divided by $90,00000 is equal to 1

07 And what that means is a 7% increase and anybody would be thrilled to get a 7% increase in their business simply by changing the price and increasing the overall revenue So, let's summarize what we found here If you lower the cost by 20%, go from $50000 year to $400

00 per year, assuming all of our other information is correct, then you can increase sales by 33%; that's more than the 20 that you had and that increases total revenue by 7% And so we can optimize the price to get the maximum total revenue and it has to do with that little bit of calculus and the derivative of the function 그래서 sum, calculus can be used to find the minima and maxima of functions including prices It allows for optimization and that in turn allows you to make better business decisions Our next topic in "Mathematics and Data Principals", is something called Big O

And if you are wondering what Big O is all about, it is about time Or, you can think of it as how long does it take to do a particular operation It's the speed of the operation 네가 원한다면 to be really precise, the growth rate of a function; how much more it requires as you add elements is called its Order That's why it's called Big O, that's for Order

And Big O gives the rate of how things grow as the number of elements grows, and what's funny is there can be really surprising differences Let me show you how it works with a few different kinds of growth rates or Big O First off, there's the ones that I say are sort of one the spot, you can get stuff done right away The simplest one is O1, and that is a constant 주문 That's something that takes the same amount of time, no matter what

You can send an email out to 10,000 people just hit one button; 끝났다 The number of elements, the number of people, the number of operations, it just takes the same amount of time 쪽으로 from that is Logarithmic, where you take the number of operations, you get the logarithm of that and you can see it's increased, but really it's only a small increase, it tapers off really quickly So an example is finding an item in a sorted rate 별로 중요하지 않습니다

Next, one up from that, now this looks like a big change, but in the grand scheme, it's not a big change This is a linear function, where each operation takes the same unit of 시각 So if you have 50 operations, you have 50 units of time If you're storing 50 objects it takes 50 units of space So, find an item in an unsorted list it's usually going to be linear time

Then we have the functions where I say you know, you'd better just pack a lunch because it's going to take a while The best example of this is called Log Linear You take the number of items and you multiply that number times the log of the items 안 example of this is called a fast Fourier transform, which is used for dealing for instance with sound or anything that sort of is over time You can see it takes a lot longer, if you have 30 elements your way up there at the top of this particular chart at 100 units of time, or 100 units of space or whatever you want to put it

And it looks like a lot But really, that's nothing compared to the next set where I say, you know you're just going to be camping out you may as well go home That includes something like the Quadratic You square the number of elements, you see how that kind of just shoots straight up That's Quadratic growth

And so multiplying two n-digit numbers, if you're multiplying two numbers that have 10 digit numbers it's going to take you that long, it's going to 오래 걸린다 Even more extreme is this one, this is the exponential, two raised to the power to the number of items you have You'll see, by the way, the red line does not even go all the way to the top That's because the graphing software that I'm using, doesn't draw it when it goes above my upper limit there, so it kind of cuts it off 그러나 this is a really demanding kind of thing, it's for instance finding an exact solution for what's called the Travelling Salesman Problem, using dynamic programming

그게 an example of exponential rate of growth And then one more I want to mention which is sort of catastrophic is Factorial You take the number of elements and you raise that to the exclamation point Factorial, and you see that one cuts off very soon because it basically goes straight up You have any number of elements of any size, it's going to be hugely demanding And for instance if you're familiar with the Travelling Salesman Problem, that's trying to find the solution through the brute force search, it takes a huge amount of time

And you know before something like that is done, you're probably going to turn to stone and wish you'd never even started The other thing to know about this, is that not only do something's take longer than others, some of these methods and some functions are more variable than others So for instance, if you're working with data that you want to sort, there are different kinds of sort or sorting methods So for instance, there is something called an insertion sort And when you find this on its best day, it's linear

It's O of n, that's not bad On the other hand the average is Quadratic and that's a huge difference between the two Selection sorts on the other hand, the best is quadratic and the average is quadratic It's always consistent, so it's kind of funny, it takes a long time, but at least you know how long it's going to take versus the variability of something like an insertion sort So in sum, let me say a few things about Big O

#1, You need to know that certain functions or procedures vary in speed, and the same thing applies to making demands on a computer's memory or storage space or whatever 그들 vary in their demands Also, some are inconsistent Some are really efficient sometimes and really slow or difficult the others Probably the most important thing here is to be aware of the demands of what you are doing

That you can't, for instance, run through every single possible solution or you know, your company will be dead before you get an answer 그래서 be mindful of that so you can use your time well and get the insight you need, in the time that you need it A really important element of the "Mathematics and Data Science" and one of its foundational principles is Probability Now, one of the things that Probability comes in intuitively for a lot of people is something like rolling dice or looking at sports outcomes And really the fundamental question of what are the odds of something

That gets at the heart of Probability Now let's take a look at some of the basic principles We've got our friend, Albert Einstein here to explain things The Principles of Probability work this way Probabilities range from zero to 1, that's like zero percent to one hundred percent chance

When you put P, then in parenthesis here A, that means the Probability of whatever is in parenthesis So P(A), means the Probability of A and then P(B) is the Probability of B When you take all of the probabilities together, you get what is called the probability 공간 And that's why we have S and that all adds up to 1, because you've now covered 100 % of the possibilities

Also you can talk about the compliment The tilde here is used to say the probability of not A is equal to 1 minus the probability of A, because those have to add up So, let's take a look at something also that conditional probabilities, which is really important in statistics A conditional probability is the probability that something if something else is true You write it this way: the probability of, and that vertical line is called a Pipe and it's read as assuming that or given that

So you can read this as the probability of A given B, is the probability of A occurring if B is true So you can say for instance, what's the probability if something's orange, what's the probability that it's a caret given this picture Now, the place that this comes in really important for a lot of people is the probability of type one and type two errors in hypothesis testing, which we'll mention at some other point But I do want to say something about arithmetic with probabilities because it does not always work out the way people think it will 시작하자 by talking about adding probabilities

Let's say you have two events A and B, and let's say you want to find the probabilities of either one of those events So that's like adding the probabilities of the two events Well, it's kind of easy You take the probability of event A and you add the probability of event B, however you may have to subtract something, you may have to subtract this little piece because maybe there are some overlap 그 둘 사이에 On the other hand if A and B are disjoined, meaning they never occur together, then that's equal to zero

And then you can subtract zero which is just, you get back to the original probabilities Let's take a really easy example of this I've created my super simple sample space I have 10 shapes I have 5 squares on top, 5 circles on the bottom and I've got a couple of red shapes on the right side 의 말을하자 we want to find the probability of a square or a red shape

So we are adding the probabilities but we have to adjust for the overlap between the two Well here's our squares on top 5 out of the 10 are squares and over here on the right we have two red shapes, two out of 10 Let's go back to our formula here and let's change a little bit Change the A and the B to S and R for square and red

Now we can start this way, let's get the probability that something is a square Well, we go back to our probability space and you see we have 5 squares out of 10 shapes total So we do 5 over 10, that reduces to 5 Okay, next up the probability of something red in our sample space

Well, we have 10 shapes total, two of them on the far right are red That's two over 10, and you do the division get2 Now, the trick is the overlap between these two categories, do we have anything that is both square and red, because we don't want to count that twice we have to subtract it Let's go back to our sample space and we are looking for something that is square, there's the squares on top and there's the things that are red on the side

And you see they overlap and this is our little overlapping square So there's one shape that meets both of those, one out of 10 So we come back here, one out of 10, that reduces to 1 and then we just do the addition and subtraction here5 plus 2 minus 1, gets us 6 And so what that means is, there is a 60% chance of an object being square or red

And you can look at it right here We have 6 shapes outlined now and so that's the visual interpretation that lines up with the mathematical one we just did Now let's talk about multiplication for Probabilities Now the idea here is you want to get joint probabilities, so the probability of two things occurring together, simultaneously And what you need to do here, is you need to multiply the probabilities

And we can say the probability of A and B, because we are asking about A and B occurring together, a joint occurrence And that's equal to the probability of A times the probability of B, that's easy But you do have to expand it just a little bit because you can have the problem of things overlapping a little bit, and so you actually need to expand it to a conditional probability, the probability of B given A Again, that's that vertical pipe there On the other hand, if A and B are independent and they never co-occur, or B is no more likely to occur if A happens, then it just reduces to the probability of B, then you get your slightly simpler equation

But let's go and take a look at our sample space here So we've got our 10 shapes, 5 of each kind, and then two that are red And we are going to look at originally, the probability of something being square or red, now we are going to look at the probability of it being square and red Now, I know we can eyeball this one real easy, but let's run through the math The first thing we need to do, is get the ones that are square

There's those 5 on the top and the ones that are red, and there's those two on the right In terms of the ones that are both square and red, yes obviously there's just this one red square at the top right But let's do the numbers here We change our formula to be S and R for square and red, we get the probability of square Again that's those 5 out of 10, so we do 5/10, reduce this to

5 And then we need the probability of red given that it's a square So, we only need to look at the squares here There's the squares, 5 of them, and one of them is red So that's 1 over 5

That reduces to 2 You multiply those two numbers; 5 times 2, and what you get is

10 or 10% chance or 10 percent of our total sample space is red squares And you come back and you look at it and you say yeah there's one out of 10 So, that just confirms what we are able to do intuitively So, that's our short presentation on probabilities and in sum what did we get out of that? #1, Probability is not always intuitive And also the idea that conditional values can help in a lot of situations, but they may not work the way you expect them to

And really the arithmetic of Probability can surprise people so pay attention when you are working with it so you can get a more accurate conclusion in your own calculations Let's finish our discussion of "Mathematics and Data Science" and the basic principles by looking at something called Bayes' theorem And if you're familiar with regular probability and influential testing, you can think of Bayes' theorem as the flip side of the coin You can also think of it in terms of intersections So for instance, standard inferential tests and calculations give you the probability of the data; that's our d, given the hypothesis

So, if you assume a known hypothesis is true, this will give you the probability of the data arising by chance The trick is, most people actually want the opposite of that They want the probability of the hypothesis given the data And unfortunately, those two things can be very different in many circumstances On the other hand, there's a way of dealing with it, Bayes does it and this is our guy right here

Reverend Thomas Bayes, 18th Century English minister and statistician He developed a method for getting what he called posterior probabilities that use as prior probabilities And test information or something like base rates, how common something overall to get the posterior or after the fact Probability Here's the general recipe to how this works: You start with the probability of the data given the hypothesis which is what you get from the likelihood of the data You also get that from a standard inferential 테스트

To that, you need to add the probability to the hypothesis or the cause of being true That's called the prior or the prior probability To that you add the D; the probability of the data, that's called the marginal probability And then you combine those and in a special way to get the probability of the hypothesis given the data or the posterior probability Now, if you want to write it as an equation, you can write it in words like this; 후부 is equal to likelihood times prior divided by marginal

You can also write it in symbols like this; the probability of H given D, the probability of the hypothesis given the data, that's the posterior probability Is equal to the probability of the data given the hypothesis, that the likelihood, multiplied by the probability of the hypothesis and divided by probability of the data overall But this is a lot easier if we look at a visual version of it 그래서, let's go this example here Let's say we have a square here that represents 100% of all people and we are looking at a medical condition

And what we are going to say here is that we got this group up here that represents people who have a disease, so that's a portion of all people And that what we say, is we have a test and people with the disease, 90% of them will test positive, so they're marked in red Now it does mean over here on the far left people with the disease who test negative that's 10% Those are our false negatives And so if the test catches 90% of the people who have the disease, that's good right? 잘, let's look at it this way

Let me ask y0u a basic question "If a person tests positive for a disease, then what is the probability they really have the disease?" And if you want a hint, I'm going to give you one It's not 90%, Here's how it goes 그래서 이것은 information I gave you before and we've got 90% of the people who have the disease; 그거야

a conditional probability, they test positive But what about the other people, the people in the big white area below, 'of all people' We need to look at them and if any of them ever test positive, do we ever get false positives and with any test you are going to get false positives And so let's say our people without the disease, 90% of them test negative, the way they should But of the people who don't have the disease, 10% of them test positive, those are false positives

And so if you really want to answer the question, "If you test positive do you have the disease?", here's what you need What you need is the number of people with the disease who test positive divided by all people who test positive 하자 look at it this way So here's our information We've got 29

7% of all people are in this darker red box, those are the people who have the disease and test positive, alright that's 좋은 Then we have 67% of the entire group, that's the people without the disease who test positive So we want to do, we want the probability of the disease what percentage have the disease and test positive and then divide that by all the people that test positive And that bottom part is made up of two things

That's made up of the people who have the disease and test positive, and the people who don't have the disease and test positive Now we can take our numbers and start plugging them in Those who have the disease and test positive that's 297% of the total population of everybody We can also put that number 바로 여기에

That's fine, but we also need to look at the percentage that do not have the disease and test positive; of the total population, that's 67% So, we just need to rearrange, we add those two numbers on the bottom, we get 364% and we do a little bit of division And the number we get is 81

6%, here's what that means A positive test result still only means a probability of 816% of having the disease So, the test is advertised at having 90% accuracy, well if you test positive there's really only a 82% chance you have the disease Now that's not really a big difference

But consider this: what if the numbers change? For instance, what if the probability of the disease changes? Here's what we originally had Let's move it around a little bit Let's make the disease much less common And so now what we do, we are going to have 45% of all people are people who have the disease and test positive

And then because there is a larger number of people who don't have the disease, we are going to have a relatively larger proportion of false positives Again, compared to the entire population it's going to be 95% of everybody 그래서 우리는 are going to go back to our formula here in words and start plugging in the numbers 우리 get 4

5% right there, and right there And then we add in our other number, the false positives that's 95% Well, we rearrange and we start adding things up, that's 14% and when we divide that, we get 321%

Here's what that number means That means a positive test result; you get a positive test result, now means you only have a probability of 321% of having the disease That's ? less than the accuracy of 90%, and in case you can't tell, that's a really big difference And that's why Bayes theorem matters, because it answers the questions that people want and the answer can be dramatically different depending on the base rate of the thing you are talking about

And so in sum, we can say 이 Bayes theorem allows you to answer the right question, people really want to know; what's the probability that I have the disease What's the probability of getting a positive if I have the disease They want to know whether they have the disease And to do this, you need to have prior probabilities, you need to know how common the disease is, you need to know how many people get positive test results overall

But, if you can get that information and run them through it can change your answers and really the emotional significance of what you're dealing with dramatically Let's wrap up some of our discussion of "Mathematics and Data Science" and the data principles and talk about some of the next steps Things you can do afterwards Probably the most important thing is, you may have learned about math a long time ago but now it's a good time to dig out some of those books and go over some of the principles you've used before The idea here is that a little math can go a long way in data science

So, things like Algebra and things like Calculus and things like Big O and Probability All of those are important in data science and its helpful to have at least a working understanding of each You don't have to know everything, but you do need to understand the principles of your procedures that you select when you do your 프로젝트 There are two reasons for that very generally speaking First, you need to know if a procedure will actually answer your question

Does it give you the outcome that you need? Will it give you the insight that you need? Second; really critical, you need to know what to do when things go wrong Things don't always work out, numbers don't always add up, you got impossible results or things just aren't responding You need to know enough about the procedure and enough about the mathematics behind it, so you can diagnose the problem, and respond appropriately And to repeat myself once again, no matter what you're working on in data science, no matter what tool you're using, what procedure you're doing, focus on your goal And in case you can't remember that, your goal is meaning

Your goal is always meaning Welcome to "Statistics in Data Science" I'm Barton Poulson and what we are going to be doing in this course is talking about some of the ways you can use statistics to see the unseen To infer what's there, even when most of it's hidden Now this shouldn't be surprised

If you remember the data science Venn Diagram we talked about a while ago, we have math up here at the top right corner, but if you were to go to the original description of this Venn Diagram, it's full name was math and stats And let me just mention something in case it's not completely obvious about why statistics matters to data science 과 the idea is this; counting is easy It's easy to say how many times a word appears in a document, it's easy to say how many people voted for a particular candidate in one part of the country Counting is easy, but summarizing and generalizing those things hard

And part of the problem is there's no such thing as a definitive analysis All analyses really, depend on the purposes that you're dealing with So as an example, let me give you a couple of pairs of words and try to summarize the difference between them in just two or three words In a word or two, how is a souffle different from a quiche, or how is an Aspen different from a Pine tree? Or how is Baseball different from Cricket? And how are musicals different from opera? It really depends on who you are talking to, it depends on your goals and it depends on the shared knowledge And so, there's not a single definitive answer, and then there's the matter of generalization

Think about it again, take music Listen to three concerti by Antonio Vivaldi, and do you think you can safely and accurately describe all of his music? Now, I actually chose Vivaldi on purpose because even Igor Stravinsky said you could, he said he didn't write 500 concertos he wrote the same concerto 500 times 그러나, take something more real world like politics If you talk to 400 registered voters in the US, can you then accurately predict the behavior of all of the voters? There's about 100 million voters in the US, and that's a matter of generalization That's the sort of thing we try to take care of with inferential statistics

Now there are different methods that you can use in statistics and all of them are described to give you a map; a description of the data you're working on There are descriptive statistics, there are inferential statistics, there's the inferential procedure Hypothesis testing and there's also estimation and I'll talk about each of those in more depth There are a lot of choices that have to be made and some of the things I'm going to discuss in detail are for instance the choice of Estimators, that's different from estimation Different measures of fit Feature selection, for knowing which variables are the most important in predicting your outcome

Also common problems that arise when trying to model data and the principles of model validation But through this all, the most important thing to remember is that analysis is functional It's designed to serve a particular purpose And there's a very wonderful quote within the statistics world that says all models are wrong All statistical descriptions of reality are wrong, because they are not exact depictions, they are summaries but some are useful and that's from George Box

And so the question is, you're not trying to be totally, completely accurate, because in that case you just wouldn't do an analysis The real question is, are you better off not doing your analysis than not doing it? And truthfully, I bet you are 그래서 in sum, we can say three things: #1, you want to use statistics to both summarize your data and to generalize from one group to another if you can On the other hand, there is no "one true answer" with data, you got to be flexible in terms of what your goals are and the shared knowledge And no matter what your doing, the utility of your analysis should guide you in your decisions

The first thing we want to cover in "Statistics in Data Science" is the principles of exploring data and this video is just designed to give an exploration overview So we like to think of it like this, the intrepid explorers, they're out there exploring and seeing what's in the world You can see what's in your data, more specifically you want to see what your dataset is like You want to see if your assumptions are right so you can do a valid analysis with your procedure Something that may sound very weird, but you want to listen to your data

Something's not work out, if it's not going the way you want, then you're going to have to pay attention and exploratory data analysis is going to help you do that Now, there are two general approaches to this First off, there's a graphical exploration, so you use graphs and pictures and visualizations to explore your data 그만큼 reason you want to do this is that graphics are very dense in information They're also really good, in fact the best to get the overall impression of your data

Second to that, there is numerical exploration I make it very clear, this is the second step Do the visualization first, then do the numerical part Now you want to do this, because this can give greater precision, this is also an opportunity to try variations on the data You can actually do some transformations, move things around a little bit and try different methods and see how that effects the results, see how it looks

So, let's go first to the graphical 부품 They are very quick and simple plots that you can do Those include things like bar charts, histograms and scatterplots, very easy to make and a very quick way to getting to understand the variables in your dataset In terms of numerical analysis; again after the graphical method, you can do things like transform the data, that is take like the logarithm of your numbers You can do Empirical estimates of population numbers, and you can use robust methods

And I'll talk about all of those at length in later videos But for right now, I can sum it up this way The purpose of exploration is to help you get to know 귀하의 데이터 And also you want to explore your data thoroughly before you start modelling, before you build statistical models And all the way through you want to make sure you listen carefully so that you can find hidden or unassumed details and leads in your data

As we move in our discussion of "Statistics and Exploring Data", the single most important thing we can do is Exploratory Graphics In the words of the late great Yankees catcher Yogi Berra, "You can see a lot by just looking" And that applies to data as much as it applies to baseball Now, there's a few reasons you want to start with graphics #1, is to actually get a feel for the data

I mean, what's it distributed like, what's the shape, are there strange things going on Also it allows you to check the assumptions and see how well your data match the requirements of the analytical procedures you hope to use You can check for anomalies like outliers and unusual distributions and errors and also you can get suggestions If something unusual is happening in the data, that might be a clue that you need to pursue a different angle or do a deeper analysis Now we want to do graphics first for a couple of reasons

#1, is they are very information dense, and fundamentally humans are visual It's our single, highest bandwidth way of getting information It's also the best way to check for shape and gaps and outliers There's a few ways that you can do this if you want to and the first is with programs that rely on code So you can use the statistical programming language R, the general purpose language Python

You can actually do a huge amount in JavaScript, especially D3JS Or you can use Apps, that are specifically designed for exploratory analysis, that includes Tableau both the desktop and public versions, Qlik and even Excel is a good way to do this And finally you can do this by hand John Tukey who's the father of Exploratory Data Analysis, wrote his seminal book, a wonderful book where it's all hand graphics and actually it's a wonderful way to do it But let's start the process for doing these graphics

We start with one variable That is univariate distributions And so you'll get something like this, the fundamental chart is the bar chart 이것은 when you are dealing with categories and you are simply counting however many cases there are in each category The nice thing about bar charts is they are really easy to read

Put them in descending order and may be have them vertical, maybe have them horizontal Horizontal could be nice to make the labels a little easier to read This is about psychological profiles of the United States, this is real data We have most states in the friendly and conventional, a smaller amount in the temperamental and uninhibited and the least common of the United States is relaxed and creative Next you can do a Box plot, or sometimes called a box and whiskers plot

This is when you have a quantitative variable, something that's measured and you can say how far apart scores are A box plot shows quartile values, it also shows outliers So for instance this is google searches for modern dance 그게 Utah at 5 standard deviations above the national average That's where I'm from and I'm glad to see that there

Also, it's a nice way to show many variables side by side, if they are on proximately similar scales Next, if you have quantitative variables, you are going to want to do a histogram Again, quantitative so interval or ratio level, or measured variables And these let you see the shape of a distribution and potentially compare many So, here are three histograms of google searches on Data Science, and Entrepreneur and Modern Dance

And you can see, mostly for the part normally distributed with a couple of outliers 일단 you've done one variable, or the univariate analyses, you're going to want to do two variables 한 번에 That is bivariate distributions or joint distributions Now, one easy way to do this is with grouped plots You can do grouped bar charts and box plots

뭐 I have here is grouped box plots I have my three regions, Psychological Regions of the United States and I'm showing how they rank on openness that's a psychological characteristic As you can see, the relaxed and creative are high and the friendly conventional tend to go to the lowest and that's kind of how that works It's also a good way of seeing the association between a categorical variable like region of the United States psychologically, and a quantitative outcome, which is what we have here with openness Next, you can also do a Scatterplot

That's where you have quantitative variables and what you're looking for here is, is it a straight line? Is it linear? Do we have outliers? 그리고 또한 strength of association How closely do the dots all come to the regression line that we have here in the middle And this is an interesting one for me because we have openness across the bottom, so more open as you go to the right and agreeableness And what you can see is there is a strong downhill association The states and the states that are the most open are also the least agreeable, so we're going to have to do something about that

And then finally, you're going to want to go to many variables, that is multivariate distributions Now, one big question here is 3D or not 3D? Let me make an argument for not 3D So, what I have here is a 3D Scatterplot about 3 variables from Google searches 쪽으로 the left, I have FIFA which is for professional soccer Down there on the bottom left, I have searches for the NFL and on the right I have searches for NBA

Now, I did this in R and what's neat about this is you can click and drag and move it around And you know that's kind of fun, you kind of spin around and it gets kind of nauseating as you look at it And this particular version, I'm using plotly in R, allows you to actually click on a point and see, let me see if I can get the floor in the right place You can click on a point and see where it ranks on each of these characteristics You can see however, this thing is hard to control and once it stops moving, it's not much fun and truthfully most 3D plots I've worked with are just kind of nightmares

They seem like they're a good idea, but not really So, here's the deal 3D graphics, like the one I just showed you, because they are actually being shown in 2D, they have to be in motion for you to tell what is going on at all 과 fundamentally they are hard to read and confusing Now it's true, they might be useful for finding clusters in 3 dimensions, we didn't see that in the data we had, but generally I just avoid them like the plague

What you do want to do however, is see the connection between the variables, you might want to use a matrix of plots This is where you have for instance many quantitative variables, you can use markers for group membership if you want, and I find it to be much clearer than 3D So here, I have the relationship between 4 search terms: NBA, NFL, MLB for Major League Baseball and FIFA You can see the individual distributions, you can see the scatterplots, you can get the correlation Truthfully for me this is a much easier chart to read and you can get the richness that we need, from a multidimensional 디스플레이

So the questions you're trying to answer overall are: Number 1, Do you have what you need? Do you have the variables that you need, do you have the ability that you need? Are there clumps or gaps in the distributions? Are there exceptional cases/anomalies that are really far out from everybody else, spikes in the scores? And of course are there errors in the data? Are there mistakes in coding, did people forget to answer questions? 아르 there impossible combinations? And these kinds of things are easiest to see with a visualization that really kind of puts it there in front of you And so in sum, I can say this about graphical exploration of data It's a critical first step, it's basically where you always want to start And you want to use the quick and easy methods, again Bar charts, scatter plots are really easy to make and they're very easy to understand

And once you're done with the graphical exploration, then you can go to the second step, which is exploring the data through numbers The next step in "Statistics and Exploring Data" is exploratory statistics or numerical exploration of data I like to think of this, as go in order 먼저, you do visualization, then you do the numerical part And a couple of things to remember here

#1, you are still exploring the data You're not modeling yet, but you are doing a quantitative exploration This might be an opportunity to get empirical estimates, that is of population parameters as opposed to theoretically based ones It's a good time to manipulate the data and explore the effect of manipulating the data, looking at subgroups, looking at transforming 변수 Also, it's an opportunity to check the sensitivity of your results

Do you get the same general results if you test under different circumstances So we are going to talk about things like Robust Statistics, resampling data and transforming data 그래서, we'll start with Robust Statistics This by the way is Hercules, a Robust mythical character And the idea with robust statistics is that they are stable, is that even when the data varies in unpredictable ways you still get the same general impression

This is a class of statistics, it's an entire category, that's less affected by outliers, and skewness, kurtosis and other abnormalities in the data So let's take a quick look This is a very skewed distribution that I created The median, which is the dark line in the box, is right around one 과 I am going to look at two different kinds of robust statistics, The Trimmed Mean and the Winsorized Mean

With the Trimmed mean, you take a certain percentage of data from the top and the bottom and you just throw it away and compute for the rest 와 더불어 Winsorized, you take those and you move those scores into the highest non-outlier score Now the 0% is exactly the same as the regular mean and here it's 124, but as we trim off or move in 5%, the mean shifts a little bit Then 10 % it comes in a little bit more to 25%, now we are throwing away 50% of our data

25% on the top and 25% on the bottom 과 we get a trimmed mean of 103 and a winsorized of 107 When we throw away 50% or we trim 50%, that actually means we are leaving just the median, only the middle scores left

그때 we get 101 What's interesting is how close we get to that, even when we have 50% of the data left, and so that's an interesting example of how you can use robust statistics to explore data, even when you have things like strong skewness Next is the principle of resampling And that's like pulling marbles repeatedly from the jar, counting the colors, putting them back in and trying again

That's an empirical estimate of sampling variability So, sometimes you get 20% red marbles, sometimes you get 30, sometimes you get 22 and so on 그곳에 are several versions for this, they go by the name jackknife, the bootstrap the permutation And the basic principle of resampling is also key to the process of cross-validation, I'll have more to say about validation later And then finally there's transforming variables

Here's our caterpillars in the process of transforming into butterflies But the idea here, is that you take a difficult data set and then you do what's called a smooth function There's no jumps in it, and something that allows you to preserve the order and work on the full dataset So you can fix skewed data, and in a scatter plot you might have a curved line, you can fix that And probably the best way to look at this is probably with something called Tukey's ladder of powers

I mentioned before John Tukey, the father of exploratory data analysis He talked a lot about data transformations This is his ladder, starting at the bottom with the -1, over x2, up to the top with x3 Here's how it works, this distribution over here is a symmetrical normally distributed variable, and as you start to move in one direction and you apply the transformation, take the square root you see how it moves the distribution over to one end Then the logarithm, then you get to the end then you get to this minus 1 over the square of the score

And that pushes it way way, way over If you go the other direction, for instance you square the score, it pushes it down in the one direction and then you cube it and then you see how it can move it around in ways that allow you to, you can actually undo the skewness to get back to a more centrally distributed distribution And so these are some of the approaches that you can use in the numerical distribution of data In sum, let's say this: statistical or numerical exploration allows you to get multiple perspectives on your data It also allows you to check the stability, see how it works with outliers, and skewness and mixed distributions and so on

And perhaps most important it sets the stage for the statistical modelling of your data As a final step of "Statistics and Exploring Data", I'm going to talk about something that's not usually exploring data but it is basic descriptive 통계 I like to think of it this way You've got some data, and you are trying to tell a story More specifically, you're trying to tell your data's story

And with descriptive statistics, you can think of it as trying to use a little data to stand in for a lot of data Using a few numbers to stand in for a large collection of numbers 그리고 이건 consistent with the advice we get from good ole Henry David Thoreau, who told us Simplify, Simplify If you can tell your story with more carefully chosen and more informative data, go for it So there's a few different procedures for doing this

#1, you'll want to describe the center of your distribution of data, that is if you're going to choose a single number, use that # 2, if you can give a second number give something about the spread or the dispersion of the variability And #3, give something about the shape of the distribution Let me say more about each of these in turn First, let's talk about 센터

We have the center of our rings here Now there are a few very common measure of center or location or central tendency of a distribution There's the mode, the median and there's the mean Now, there are many, many others but those are the ones that are going to get you most of the way Let's talk about the mode first

Now, I'm going to create a little dataset here on a scale from 1 to 11, and I'm going to put individual scores There's a one, and another one, and another one and another one Then we have a two, two, then we have a score way over at 9 and another score over at 11 So we have 8 scores, and this is the distribution This is actually a histogram of the dataset

The mode is the most commonly occurring score or the most frequent score Well, if you look at how tall each of these go, we have more ones than anything else, and so one is the mode Because it occurs 4 times and nothing else comes close to that The median is a little different The median is looking for the score that is at the center if you split it into two equal groups

우리 have 8 scores, so we have to get one group of 4, that's down here, and the other group of four, this really big one because it's way out and the median is going to be the place on the number line that splits those into two groups That's going to be right here at one and a half Now the mean is going to be a little more complicated, even though people understand means in general It's the first one here that actually has a formula, where M for the mean is equal to the sum of X (that's our scores on the variable), divided by N (the number of scores) You can also write it out with Greek notation if you want, like this where that's sigma – a capital sigma is the summation sign, sum of X divided by N

And with our little dataset, that works out to this: one plus one plus one plus one plus two plus two plus nine plus eleven Add those all up and divide by 8, because that's how many scores there are Well that reduces to 28 divided by 8, which is equal to 35 If you go back to our little chart here, 3

5 is right over here You'll notice there aren't any scores really exactly right there That's because the mean tends to get very distorted by its outliers, it follows the extreme scores But a really nice, I say it's more than just a visual analogy, is that if this number were a sea saw, then the mean is exactly where the balance point or the fulcrum would be for these to be equal People understand that

If somebody weighs more they got to sit in closer to balance someone who less, who has to sit further out, and that's how the mean works Now, let me give a bit of the pros and cons of each of these Mode is easy to do, you just count how common it is 에 other hand, it may not be close to what appears to be the center of the data The Median it splits the data into two same size groups, the same number of scores in each and that's pretty easy to deal with but unfortunately, it's pretty hard to use that information in any statistics after that

And finally the mean, of these three it's the least intuitive, it's the most effective by outliers and skewness and that really may strike against it, but it is the most useful statistically and so it's the one that gets used most often 다음 것, there's the issue of spread, spread your tail feathers And we have a few measures here that are pretty common also There's the range, there are percentiles and interquartile range and there's variance and standard deviation I'll talk about each of those

First the Range The Range is simply the maximum score minus the minimum score, and in our case that's 11 minus 1, which is equal to 10, so we have a range of 10 I can show you that on our 차트 It's just that line on the bottom from the 11 down to the one That's a range of 10

The interquartile range which is actually usually referred to simply as the IQR is the distance between the Q3; which is the third quartile score and Q1; which is the first quartile score If you're not familiar with quartiles, it's the same the 75th percentile score and the 25th percentile score Really what it is, is you're going to throw away some of the some of the data So let's go to our distribution here First thing we are going to do, we are going to throw away the two highest scores, there they are, they're greyed out now, and then we are going to throw away two of the lowest scores, they're out 그곳에

Then we are going to get the range for the remaining ones Now, this is complicated by the fact that I have this big gap between 2 and 9, and different methods of calculating quartiles do something with that gap So if you use a spreadsheet it's actually going to do an interpolation process and it will give you a value of 375, I believe 그리고 down to one for the first quartile, so not so intuitive with this graph but that it is how it works usually

If you want to write it out, you can do it like this The interquartile range is equal to Q3 minus Q1, and in our particular case that's 375 minus 1 And that of course is equal to just 275 and there you have it

Now our final measure of spread or variability or dispersion, is two related measures, the variance and the standard deviation These are little harder to explain and a little harder to show But the variance, which is at least the easiest formula, is this: the variance is equal to that's the sum, the capital sigma that's the sum, X minus M; that's how far each score is from the mean and then you take that deviation there and you square it, you add up all the deviations, and then you divide by the number So the variance is, the average square deviation from the mean I'll try to show you that graphically

So here's our dataset and there's our mean right there at 3 and a half Let's go to one of these twos We have a deviation there of 15 and if we make a square, that's 15 points on each side, well there it is

우리는 할 수있다 a similar square for the other score too If we are going down to one, then it's going to be 25 squared and it's going to be that much bigger, and we can draw one of these squares for each one of our 8 points The squares for the scores at 9 and 11 are going to be huge and go off the page, so I'm not going to show them

But once you have all those squares you add up the area and you get the variance So, this is the formula for the variance, but now let me show the standard deviation which is also a very common 법안 It's closely related to this, specifically it's just the square root of the variance Now, there's a catch here The formulas for the variance and the standard deviation are slightly different for populations and samples in that they use different denominators

그러나 they give similar answers, not identical but similar if the sample is reasonably large, say over 30 or 50, then it's really going to be just a negligible difference 그럼 do a little pro and con of these three things First, the Range It's very easy to do, it only uses two numbers the high and the low, but it's determined entirely by those two 번호 And if they're outliers, then you've got really a bad situation

The Interquartile Range the IQR, is really good for skewed data and that's because it ignores extremes on either end, so that's nice And the variance and the standard deviation while they are the least intuitive and they are the most affected by outliers, they are also generally the most useful because they feed into so many other procedures that are used in data 과학 Finally, let's talk a little bit about the shape of the distribution 너는 할 수있다 have symmetrical or skew distribution, unimodal, uniform or u-shaped

You can have outliers, there's a lot of variations Let me show you a few of them First off is a symmetrical distribution, pretty easy They're the same on the left and on the right And this little pyramid shape is an example of a symmetrical distribution

There are also skewed distributions, where most of the scores are on one end and they taper off This here is a positively skewed distribution where most of the scores are at the low end and the outliers are on the high end This is unimodal, our same pyramid shape Unimodal means it has one mode, really kind of one hump in the data That's contrasted for instance to bimodal where you have two modes, and that usually happens when you have two distributions that got mixed together

There is also uniform distribution where every response is equally common, there's u-shaped distributions where people tend to pile up at one end or the other and a big dip in the 중간 And so there's a lot of different variations, and you want to get those, the shape of the distribution to help you understand and put the numerical summaries like the mean and like the standard deviation and put those into context In sum, we can say this: when you use this script of statistics that allows you to be concise with your data, tell the story and tell it succinctly You want to focus on things like the center of the data, the spread of the data, the shape of the data And above all, watch out for anomalies, because they can exercise really undue influence on your interpretations but this will help you better understand your data and prepare you for the steps to follow

As we discuss "Statistics in Data Science", one of the really big topics is going to be Inference And I'll begin that with just a general discussion of inferential statistics But, I'd like to begin unusually with a joke, you may have seen this before it says "There are two kinds of people in 세계 1) Those you can extrapolate from incomplete data and, the end" Of course, because the other group is the people who can't

But let's talk about extrapolating from incomplete data or inferring from incomplete data First thing you need to know is the difference between populations and samples A population represents all of the data, or every possible case in your group of interest It might be everybody who's a commercial pilot, it might be whatever But it represents everybody in that or every case in that group that you're interested in

And the thing with the population is, it just is what it is It has its values, it has it's mean and standard deviation and you are trying to figure out what those are, because you generally use those in doing your analyses On the other hand, samples instead of being all of the data are just some of the data And the trick is they are sampled with error You sample one group and you calculate the mean

It's not going to be the same if you do it the second time, and it's that variability that's in sampling that makes Inference a little tricky Now, also in inference there are two very general approaches There's testing which is short for hypothesis testing and maybe you've had some experience with this This is where you assume a null hypothesis of no effect is true You get your data and you calculate the probability of getting the sample data that you have if the null hypothesis is true

And if that value is small, usually less than 5%, then you reject the null hypothesis which says really nothings happen and you infer that there is a difference in the population The other most common version is Estimation Which for instance is characterizing confidence 간격 That's not the only version of Estimation but it's the most common 이 is where you sample data to estimate a population parameter value directly, so you use the sample mean to try to infer what the population mean is

You have to choose a confidence level, you have to calculate your values and you get high and low bounds for you estimate that work with a certain level of confidence Now, what makes both of these tricky is the basic concept of sampling error I have a colleague who demonstrates this with colored M&M's, what percentage are red, and you get them out of the bags and you count 이제하자 talk about this, a population of numbers

I'm going to give you just a hypothetical population of the numbers 1 through 10 And what I am going to do, is I am going to sample from those numbers randomly, with replacement That means I pull a number out, it might be a one and I put it back, I might get the one again So I'm going to sample with replacement, which actually may sound a little bit weird, but it's really helpful for the mathematics behind inference And here are the samples that I got, I actually did this with software

I got a 3, 1, 5, and 7 Interestingly, that is almost all odd numbers, almost My second sample is 4, 4, 3, 6 and 10 So you can see I got the 4 twice And I didn't get the 1, the 2, the 5, 7, or 8 or 9

The third sample I got three 1's! And a 10 and a 9, so we are way at the ends there And then my fourth sample, I got a 3, 9, 2, 6, 5 All of these were drawn at random from the exact same population, but you see that the samples are very different That's the sampling variability or the sampling error And that's what makes inference a little trickier

And let's just say again, why the sampling variability, why it matters 그 because inferential methods like testing and like estimation try to see past the random sampling variation to get a clear picture on the underlying population So in sum, let's say this about Inferential Statistics You sample your data from the larger populations, and as you try to interpret it, you have to adjust for error and there's a few different ways of doing that And the most common approaches are testing or hypothesis testing and estimation of parameter values

The next step in our discussion of "Statistics and Inference" is Hypothesis Testing A very common procedure in some fields of research 나는 생각하고 싶어한다 of it as put your money where your mouth is and test your theory Here's the Wright brothers out testing their plane

Now the basic idea behind hypothesis testing is this, and you start out with a question You start out with something like this: What is the probability of X occurring by chance, if randomness or meaningless sampling variation is the only explanation? Well, the response is this, if the probability of that data arising by chance when nothing's happening is low, then you reject randomness as a likely explanation Okay, there's a few things I can say about this #1, it's really common in scientific research, say for instance in the social sciences, it's used all the time #2, this kind of approach can be really helpful in medical diagnostics, where you're trying to make a yes/no decision; does a person have a particular disease

And 3, really anytime you're trying to make a go/no go decision, which might be made for instance with a purchasing decision for a school district or implementing a particular law, You base it on the data and you have to make a yes/no Hypothesis testing might be helpful in those situations Now, you have to have hypotheses to do hypothesis testing You start with H0, which is shorthand for the null hypothesis And what that is in larger, what that is in lengthier terms is that there is no systematic effect between groups, there's no effect between variables and random sampling error is the only explanation for any observed differences you see

And then contrast that with HA, which is the alternative hypothesis And this really just says there is a systematic effect, that there is in fact a correlation between variables, that there is in fact a difference between two groups, that this variable does in fact predict the other one 하자 take a look at the simplest version of this statistically speaking Now, what I have here is a null distribution This is a bell curve, it's actually the standard normal distribution

Which shows z-scores in relative frequency, and what you do with this is you mark off regions of rejection And so I've actually shaded off the highest 25% of the distribution and the lowest 25% What's funny about this is, is that even though I draw it +/- 3, it looks like 0

It's actually infinite and asymptotic But, that's the highest and lowest 25% collectively leaves 95% in the middle Now, the idea is then that you gather your data, you calculate a score for you data and you see where it falls in this distribution And I like to think of that as you have to go down one path to the other, you have to make a decision

And you have to decide to whether to retain your null hypothesis; maybe it is random, or reject it and decide no I don't think it's random The trick is, things can go wrong You can get a false positive, and this is when the sample shows some kind of statistical effect, but it's really randomness And so for instance, this scatterplot I have here, you can see a little down hill association here but this is in fact drawn from data that has a true correlation of zero And I just kind of randomly sampled from it, it took about 20 rounds, but it looks negative but really there's nothing happening

The trick about false positives is; that's conditional on rejecting the null The only way to get a false positive is if you actually conclude that there's a positive result It goes by the highly descriptive name of a Type I error, but you get to pick a value for it, and 05 or a 5% risk if you reject the null hypothesis, that's the most common value Then there's a false negative

This is when the data looks random, but in fact, it's systematic or there's a relationship So for instance, this scatterplot it looks like there's pretty much a zero relationship, but in fact this came from two variables that were correlated at 25, that's a pretty strong association Again, I randomly sampled from the data until I got a set that happened to look pretty flat And a false negative is conditional on not rejecting the null

당신 can only get a false negative if you get a negative, you say there's nothing there 그 also called a Type II error and this is a value that you have to calculate based on several elements of your testing framework, so it's something to be thoughtful of 지금, I do have to mention one thing, big security notice, but wait The problem with Hypothesis 테스트; there's a few #1, it's really easy to misinterpret it

A lot of people say, well if you get a statistically significant result, it means that it's something big and meaningful And that's not true because it's confounded with sample size and a lot of other things that don't really matter Also, a lot of other people take exception with the assumption of a null effect or even a nil effect, that there's zero difference at all And that can be, in certain situations can be an absurd claim, so you've got to watch out for that There's also bias from the use of cutoff

Anytime you have a cut off, you're going to have problems where you have cases that would have been slightly higher, slightly lower It would have switched on the dichotomous outcome, so that is a problem 그리고 나서 lot of people say, it just answers the wrong question, because "What it's telling you is what's the probability of getting this data at random?" That's not what most people care 약 They want it the other way, which is why I mentioned previously Bayes theorem and I'll say more about that later That being said, Hypothesis Testing is still very deeply ingrained, very useful in a lot of questions and has gotten us really far in a lot of domains

So in sum, let me say this Hypothesis Testing is very common for yes/no outcomes and is the default in many fields And I argue it is still useful and information despite many of the well substantiated critiques We'll continue in "Statistics and Inference" by discussing Estimation Now as opposed to Hypothesis Testing, Estimation is designed to actually give you a number, give you a value

Not just a yes/no, go/no go, but give you an estimate for a parameter that you're trying to get I like to think of it sort of as a new angle, looking at something from a different way And the most common, approach to this is Confidence Intervals Now, the important thing to remember is that this is still an Inferential procedure You're still using sample data and trying to make conclusions about a larger group or 인구

The difference here, is instead of coming up with a yes/no, you'd instead focus on likely values for the population value Most versions of Estimation are closely related to Hypothesis Testing, sometimes seen as the flip side of the coin And we'll see how that works in later videos Now, I like to think of this as an ability to estimate any sample statistic and there's a few different versions We have Parametric versions of Estimation and Bootstrap versions, that's why I got the boots here

And that's where you just kind of randomly sample from the data, in an effort to get an idea of the variability 너는 할 수있다 also have central versus noncentral Confidence Intervals in the Estimation, but we are not going to deal with those Now, there are three general steps to this First, you need to choose a confidence level

Anywhere from say, well you can't have a zero, it has to be more than zero and it can't be 100% Choose something in between, 95% is the most common And what it does, is it gives you a range a high and a low And the higher your level of confidence the more confident you want to be, the wider the range is going to be between your high and your low estimates Now, there's a fundamental trade off in what' happening here and the trade off between accuracy; which means you're on target or more specifically that your interval contains the true population value

And the idea is that leads you to the correct Inference There's a tradeoff between accuracy and what's called Precision in this context And precision means a narrow interval, as a small range of likely values And what's important to emphasize is this is independent of accuracy, you can have one without the other! Or neither or both In fact, let me show you how this works

What I have here is a little hypothetical situation, I've got a variable that goes from 10 to 90, and I've drawn a thick black line at 50 If you think of this in terms of percentages and political polls, it makes a very big difference if you're on the left or the right of 50% And then I've drawn a dotted vertical line at 55 to say that that's our theoretical true population value And what I have here is a distribution that shows possible values based on our sample data And what you get here is it's not accurate, because it's centered on the wrong thing

It's actually centered on 45 as opposed to 55 And it's not precise, because it's spread way out from may be 10 to almost 80 So, this situation the data is no help really at all Now, here's another 하나 This is accurate because it's centered on the true value

That's nice, but it's still really spread out and you see that about 40% of the values are going to be on the other side of 50%; might lead you to reach the wrong conclusion That's a problem! Now, here's the nightmare situation This is when you have a very very precise estimate, but it's not accurate; 틀렸어 And this leads you to a very false sense of security and understanding of what's going on and you're going to totally blow it all the time The ideal situation is this: you have an accurate estimate where the distribution of sample values is really close to the true population value and it's precise, it's really tightly knit and you can see that about 95% of it is on the correct side of 50 and that's good

네가 원한다면 see all four of them here at once, we have the precise two on the bottom, the imprecise ones on the top, the accurate ones on the right, the inaccurate ones on the left 과 so that's a way of comparing it But, no matter what you do, you have to interpret confidence 간격 Now, the statistically accurate way that has very little interpretation is this: you would say the 95% confidence interval for the mean is 58 to 7

2 Okay, so that's just kind of taking the output from your computer and sticking it to sentence form The Colloquial Interpretation of this goes like this: there is a 95% chance that the population mean is between 58 and 72

Well, in most statistical procedures, specifically frequentist as opposed to bayesian you can't do that That implies the population mean shifts, that's not usually how people see it Instead, a better interpretation is this; 95% of confidence intervals for randomly selected samples will contain the population mean Now, I can show you this really easily, with a little demonstration This is where I randomly generated data from a population with a mean of 55 and I got 20 different samples

And I got the Confidence Interval from each sample and I charted the high and the low And the question is, did it include the true population value And you can see of these 20, 19 included it, some of them barely made 그것 If you look at sample #1 on the far left; barely made it Sample #8, it doesn't look like it made it, sample 20 on the far right, barely made it on the other end

오직 하나 missed it completely, that sample #2, which is shown in red on the left Now, it's not always just one out of twenty, I actually had to run this simulation about 8 times, because it gave me either zero or 3, or 1 or two, and I had to run it until I got exactly what I was looking for here, But this is what you would expect on average So, let's say a few things about this There are somethings that affect the width of a Confidence Interval

The first is the confidence level, or CL Higher confidence levels create wider intervals The more certain you have to be, you're going to give a bigger range to cover your basis Second, the Standard Deviation or larger standard deviations create wider intervals 만약 thing that you are studying is inherently really variable, then of course you're estimate of the range is going to be more variable as well

And then finally there is the n or the sample size This one goes the other way Larger sample sizes create narrower intervals The more observations you have, the more precise and the more reliable things tend to be 나는 can show you each of these things graphically

Here we have a bunch of Confidence Intervals, where I am simply changing the confidence level from 50 at the low left side to 999 and as you can see, it gets much bigger as we increase Next one is Standard Deviation As the sample standard deviation increases from 1 to 16, you can see that the interval gets a lot bigger

And then we have sample size going from just 2 up to 512; I'm doubling it at each point And you can see how the interval gets more and more and more precise as we go through And so, let's say this to sum up our discussion of estimation 자신 Intervals which are the most common version of Estimation focus on the population parameter And the variation in the data is explicitly included in that Estimation

Also, you can argue that they are more informative, because not only do they tell you whether the population value is likely, but they give you a sense of the variability of the data itself, and that's one reason why people will argue that confidence levels should always be included in any statistical analysis As we continue our discussion on "Statistics and Data Science", we need to talk about some of the choices you have to make, some of the tradeoffs and some of the effects that these things have We'll begin by talking about Estimators, that is different methods for estimating parameters I like to think of it as this, "What kind of measuring stick or standard are you going to be using?" Now, we'll begin with the most common This is called OLS, which is actually short for Ordinary Least Squares

이것은 a very common approach, it's used in a lot of statistics and is based on what is called the sum of squared errors, and it's characterized by an acronym called BLUE, which stands for Best Linear Unbiased Estimator Let me show you how that works Let's take a scatterplot here of an association between two variables This is actually the speed of a car and the distance to stop from about the '20's I think We have a scatterplot and we can draw a straight regression line right through it

Now, the line I've used is in fact the Best Linear Unbiased Estimate, but the way that you can tell that is by getting what are called the Residuals If you take each data point and draw a perfectly vertical line up or down to the regression line, because the regression line predicts what the value would be for that value on the X axis Those are the residuals Each of those individual, vertical lines is Residual You square those and you add them up and this regression line, the gray angled line here will have the smallest sum of the squared residuals of any possible straight line you can run through it

Now, another approach is ML, which stands for Maximum Likelihood And this is when you choose parameters that make the observed data most likely It sounds kind of weird, but I can demonstrate it, and it's based on a kind of local search It doesn't always find the best, I like to think of it here like the person here with a pair of binoculars, looking around them, trying hard to find something, but you could theoretically miss something Let me give a very simple example of how this works

Let's assume that we're trying to find parameters that maximize the likelihood of this dotted vertical line here at 55, and I've got three possibilities I've got my red distribution which is off to the left, blue which is a little more centered and green which is far to the right And these are all identical, except they have different means, and by changing the means, you see there the one that is highest where the dotted line is the blue one And so, if the only thing we are doing is changing the mean, and we are looking at these three distributions, then the blue one is the one that has the maximum likelihood for this particular parameter On the other hand, we could give them all the same meaning right around 50, and vary their standard deviations instead and so they spread out different amounts

이 경우, the red distribution is highest at the dotted vertical line and so it has the maximum value Or if you want to, you can vary both the mean and the standard deviations simultaneously And here green gets the slight advantage Now this is really a caricature of the process because obviously you would just want to center it on the 55 and be done with it The question is when you have many variables in your dataset

Then it's a very complex process of choosing values that can maximize the association between all of them But you get a feel for how it works with this The third approach which is pretty common is MAP or map for Maximum A Posteriori This is a Bayesian approach to parameter estimation, and what it does it adds the prior distribution and then it goes through sort of an anchoring and adjusting 방법 What happens, by the way is stronger prior estimates exert more influence on the estimate and that might mean for example larger sample or more extreme values

And those have a greater influence on the posterior estimate of the parameters Now, what's interesting is that all three of these methods all connect with each other Let me show you exactly how they connect The ordinary least squares, OLS, this is equivalent to maximum likelihood, when it has normally distributed error terms And maximum likelihood, ML is equivalent to Maximum A Posteriori or MAP, with a uniform prior distribution

You want to put it another way, ordinary least squares or OLS is a special case of Maximum Likelihood And then maximum likelihood or ML, is a special case of Maximum A Posteriori, and just in case you like it, we can put it into set notation OLS is a subset of ML is a subset of MAP, and so there are connections between these three methods of estimating population parameters 나를 시켜줘 just sum it up briefly this way

The standards that you use OLS, ML, MAP they affect your choices and they determine which parameters best estimate what's happening in your data Several methods exist and there's obviously more than what I showed you right here, but many are closely related and under certain circumstances they're all identical 그래서 it comes down to exactly what are your purposes and what do you think is going to work best with the data that you have to give you the insight that you need in your own project The next step we want to consider in our "Statistics and Data Science", are choices that we have to make Has to do with Measures of fit or the correspondence between the data that we have and the model that you create

Now, turns out there are a lot of different ways to measure this and one big question is how close is close enough or how can you see the difference between the model and reality Well, there's a few really common approaches to this 그만큼 first one has what's called R2 That's kind of the longer name, that's the coefficient of determination There's a variation; adjusted R2, which takes into consideration the number of variables

Then there's minus 2LL, which is based on the likelihood ratio and a couple of variations The Akaike Information Criterion or AIC and the Bayesian Information Criterion or BIC Then there's also Chi-Squared, it's actually a Greek c, it looks like ax, but it's actually c and it's chi-squared And so let's talk about each of these in turn First off is R2, this is the squared multiple correlation or the coefficient of determination

And what it does is it compares the variance of Y, so if you have an outcome variable, it looks like the total variance of that and compares it to the residuals on Y after you've made your prediction The scores on squared range from 0 to 1 and higher is better 그만큼 next is -2 Log-likelihood that's the likelihood ratio or like I just said the -2 log likelihood And what this does is compares the fit of nested models, we have a subset then a larger set, than the larger set overall This approach is used a lot in logistic regression when you have a binary outcome

And in general, smaller values are considered better fit Now, as I mentioned there are some variations of this I like to think of variations of chocolate The -2 log likelihood there's the Akaike Information Criterion (AIC) and the Bayesian Information Criterion (BIC) and what both of these do, they adjust for the number of predictors Because obviously you're going to have a huge number of predictors, you're going to get a really good fit

But you're probably going to have what is called overfitting, where your model is tailored to specifically to the data you currently have and that doesn't generalize well These both attempt to reduce the effect of overfitting Then there's chi-squared 다시 It's actually a lower case Greek c, looks like an x and chi-squared is used for examining the deviations between two datasets Specifically between the observed dataset and the expected values or the model you create, we expect this many frequencies in each category

Now, I'll just mention when I go into the store there's a lot of other choices, but these are some of the most common standards, particularly the R2 And I just want to say, in sum, there are many different ways to assess the fit that corresponds between a model and 귀하의 데이터 And the choices effect the model, you know especially are you getting penalized for throwing in too many variables relative to your number of cases? Are you dealing with a quantitative or binary outcome? Those things all matter, and so the most important thing as always, my standing advice is keep your goals in mind and choose a method that seems to fit best with your analytical strategy and the insight you're trying to get from 귀하의 데이터 The "Statistics and Data Science" offers a lot of different choices 하나의 the most important is going to be feature selection, or the choice of variables to include in your model

It's sort of like confronting this enormous range of information and trying to choose what matters most Trying to get the needle out of the haystack The goal of feature selection is to select the best features or variables and get rid of uninformative/noisy variables and simplify the statistical model that you are creating because that helps avoid overfitting or getting a model that works too well with the current data and works less well with other data The major problem here is Multicollinearity, a very long word 그 has to do with the relationship between the predictors and the model

I'm going to show it to you graphically here Imagine here for instance, we've got a big circle here to represent the variability in our outcome variable; we're trying to predict it And we've got a few predictors So we've got Predictor # 1 over here and you see it's got a lot of overlap, that's nice Then we've got predictor #2 here, it also has some overlap with the outcome, but it's also overlaps with Predictor 1

And then finally down here, we've got Predictor 3, which overlaps with both of them And the problem rises the overlap between the predictors and the outcome variable Now, there's a few ways of dealing with this, some of these are pretty common So for instance, there's the practice of looking at probability values and regression equations, there's standardized coefficients and there's variations on sequential regression There are also, there's newer procedures for dealing with the disentanglement of the association between the predictors

There's something called Commonality analysis, there's Dominance Analysis, and there are Relative Importance Weights Of course there are many other choices in both the common and the newer, but these are just a few that are worth taking a special look at First, is P values or probability values 이것은 the simplest method, because most statistical packages will calculate probability values for each predictor and they will put little asterisks next to it And so what you're doing is you're looking at the p-values; the probabilities for each predictor or more often the asterisks next to it, which sometimes give it the name of Star Search

You're just kind of cruising through a large output of data, just looking for the stars or asterisks This is fundamentally a problematic approach for a lot of reasons The problem here, is your looking individually and it inflates false positives Say you have 20 variables Each is entered and tested with an alpha or a false positive of 5%

You end up with nearly a 65% chance of a least one false positive in there That's distorted by sample size, because with a large enough sample anything can become statistically significant And so, relying on p-values can be a seriously problematic approach Slightly better approach is to use Betas or Standardized regression coefficients and this is where you put all the variables on the same scale So, usually standardized from zero and then to either minus 1/plus 1 or with a standardized deviation of 1

The trick is though, they're still in the context of each other and you can't really separate them because those coefficients are only valid when you take that group of predictors as a whole So, one way to try and get around that is to do what they call stepwise procedures Where you look at the variables in sequence, there's several versions of sequential regression that'll allow you to do that You can put the variables into groups or blocks and enter them in blocks and look at how the equation changes overall You can examine the change in fit in each step

The problem with a stepwise procedure like this, is it dramatically increases the risk of overfitting which again is a bad thing if you want to generalize your data And so, to deal with this, there is a whole collection of newer methods, a few of them include commonality analysis, which provides separate estimates for the unique and shared contributions of each variable Well, that's a neat statistical trick but the problem is, it just moves the problem of disentanglement to the analyst, so you're really not better off then you were as far as I can tell There's dominance analysis, which compares every possible subset of Predictors Again, sounds really good, but you have the problem known as the combinatorial explosion

If you have 50 variables that you could use, and there are some that have millions of variables, with 50 variables, you have over 1 quadrillion possible combinations, you're not going to finish that in your lifetime And it's also really hard to get things like standard errors and perform inferential statistics with this kind of model Then there's also something that's even more recent than these others and that's called relative importance weights And what that does is creates a set of orthogonal predictors or uncorrelated with each other, basing them off of the originals and then it predicts the scores and then it can predict the outcome without the multicollinear because these new predictors are uncorrelated It then rescales the coefficients back to the original variables, that's the back-transform

Then from that it assigns relative importance or a percentage of explanatory power to each predictor variable Now, despite this very different approach, it tends to have results that resemble dominance analysis It's actually really easy to do with a website, you just plug in your information and it does it for you And so that is yet another way of dealing with a problem multicollinearity and trying to disentangle the contribution of different 변수 In sum, let's say this

What you're trying to do here, is trying to choose the most useful variables to include into your model Make it simpler, be parsimonious 또한, reduce the noise and distractions in your data And in doing so, you're always going to have to confront the ever present problem of multicollinearity, or the association between the predictors in your model with several different ways of dealing with that The next step in our discussion of "Statistics and the Choices you have to Make", concerns common problems in modeling

And I like to think of this is the situation where you're up against the rock and the hard place and this is where the going gets very hard Common problems include things like Non-Normality, Non-Linearity, Multicollinearity and Missing Data 그리고 나는 talk about each of these Let's begin with Non-Normality Most statistical procedures like to deal with nice symmetrical, unimodal bell curves, they make life really easy

그러나 sometimes you get really skewed distribution or you get outliers Skews and outliers, while they happen pretty often, they're a problem because they distort measures like the mean gets thrown off tremendously when they have outliers And they throw off models because they assume the symmetry and the unimodal nature of a normal distribution Now, one way of dealing with this as I've mentioned before is to try transforming the data, taking the logarithm, try something else But another problem may be that you have mixed distributions, if you have a bimodal distribution, maybe what you really have here is two distributions that got mixed together and you may need to disentangle them through exploring your data 조금 더

Next is Non-Linearity The gray line here is the regression line, we like to put straight lines through things because it makes the description a lot easier But sometimes the data is curved and this is you have a perfect curved relationship here, but a straight line doesn't work with that Linearity is a very common assumption of many procedures especially regression To deal with this, you can try transforming one or both of the variables in the equation and sometimes that manages to straighten out the relationship between the two of them

Also, using Polynomials Things that specifically include curvature like squares and cubed values, that can help as well Then there's the issues of multicollinearity, which I've mentioned previously This is when you have correlated predictors, or rather the predictors themselves are associated to each other The problem is, this can distort the coefficients you get in the overall model

Some procedures, it turns out are less affected by this than others, but one overall way of using this might be to simply try and use fewer variables If they're really correlated maybe you don't need all of them And there are empirical ways to deal with this, but truthfully, it's perfectly legitimate to use your own domain expertise and your own insight to the problem To use your theory to choose among the variables that would be the most informative Part of the problem we have here, is something called the Combinatorial Explosion

This is where combinations of variables or categories grow too fast for analysis Now, I've mentioned something about this before If you have 4 variables and each variable has two categories, then you have 16 combinations, fine you can try things 16 different ways That's perfectly doable If you have 20 variables with five categories; again that's not to unlikely, you have 95 trillion combinations, that's a whole other ball game, even with your fast 컴퓨터

A couple of ways of dealing with this, #1 is with theory Use your theory and your own understanding of the domain to choose the variables or categories with the greatest potential to inform You know what you're dealing with, rely on that information 둘째 is, there are data driven approaches You can use something called a Markov chain Monte Carlo model to explore the range of possibilities without having to explore the range of possibilities of each and every single one of your 95 trillion combinations

Closely related to the combinatorial explosion is the curse of dimensionality This is when you have phenomena, you're got things that may only occur in higher dimensions or variable sets Things that don't show up until you have these unusual combinations That may be true of a lot of how reality works, but the project of analysis is simplification And so you've got to try to do one or two 다른 것들

You can try to reduce Mostly that means reducing the dimensionality of 귀하의 데이터 Reduce the number of dimensions or variables before you analyze You're actually trying to project the data onto a lower dimensional space, the same way you try to get a shadow of a 3D object There's a lot of different ways to do that

There's also data driven methods And the same method here, a Markov chain Monte Carlo model, can be used to explore a wide range of possibilities Finally, there is the problem of Missing Data and this is a big problem Missing data tends to distort analysis and creates bias if it's a particular group that's missing And so when you're dealing with this, what you have to do is actually check for patterns and missingness, you create new variables that indicates whether or not a variable is missing and then you see if that is associated with any of your other 변수

If there's not strong patterns, then you can impute missing values 너는 할 수있다 put in the mean or the median, you can do Regression Imputation, something called Multiple Imputation, a lot of different choices And those are all technical topics, which we will have to talk about in a more technically oriented series But for right now, in terms of the problems that can come up during modeling, I can summarize it this way

#1, check your assumptions at every step Make sure that the data have the distribution that you need, check for the effects of outliers, check for ambiguity and bias See if you can interpret what you have and use your analysis, use data driven methods but also your knowledge of the theory and the meaning of things in your domain to inform your analysis and find ways of dealing with these problems As we continue our discussion of "Statistics and the Choices that are Made", one important consideration is Model Validation And the idea here is that as you are doing your analysis, are you on target? More specifically, the model that you create through regression or whatever you do, your model fits the sample beautifully, you've optimized it there

But, will it work well with other data? Fundamentally, this is the question of Generalizability, also sometimes called Scalability Because you are trying to apply in other situations, and you don't want to get too specific or it won't work in other situations Now, there are a few general ways of dealing with this and trying to get some sort of generalizability #1 is Bayes; a Bayesian approach Then there's Replication

Then there's something called Holdout Validation, then there is Cross-Validation I'll discuss each one of these very briefly in conceptual terms The first one is Bayes and the idea here is you want to get what are called Posterior Probabilities Most analyses give you the probability value for the data given; the hypothesis, so you have to start with an assumption about the hypothesis But instead, it's possible to flip that around by combining it with special kind of data to get the probability of the hypothesis given 자료

And that is the purpose of Bayes theorem; which I've talked about elsewhere Another way of finding out how well things are going to work is through Replication That is, do the study again It's considered the gold standard in many different fields The question is whether you need an exact replication or if a conceptual one that is similar in certain respects

You can argue for both ways, but one thing you do want to do is when you do a replication then you actually want to combine the results And what's interesting is the first study can serve as the Bayesian prior probability for the second study 그래서 you can actually use meta-analysis or Bayesian methods for combining the data from the two 그들의 Then there's hold out validation This is where you build your statistical model on one part of the data and you test it on the other

I like to think of it as the eggs in separate baskets The trick is that you need a large sample in order to have enough to do these two steps separately On the other hand, it's also used very often in data science competitions, as a way of having a sort of gold standard for assessing the validity of a model Finally, I'll mention just one more and that's Cross-Validation Where you use the same data for training and for testing or validating

There's several different versions of it, and the idea is that you're not using all the data at once, but you're kind of cycling through and weaving the results together There's Leave-one-out, where you leave out one case at a time, also called LOO There's Leave-p-out, where you leave out a certain number at each point There's k-fold where you split the data into say for instance 10 groups and you leave out one and you develop it on the other nine, then you cycle through And there's repeated random subsampling, where you use a random process at each point

어떤 of those can be used to develop the model on one part of the data and tested on another and then cycle through to see how well it holds up on different circumstances 그래서 in sum, I can say this about validation You want to make your analysis count by testing how well your model holds up from the data you developed it on, to other situations Because that is what you are really trying to accomplish This allows you to check the validity of your analysis and your reasoning and it allows you to build confidence in the utility of your results

To finish up our discussion of "Statistics and Data Science" and the choices that are involved, I want to mention something that really isn't a choice, but more an attitude And that's DIY, that's Do it yourself The idea here is, you know really you just need to get started Remember data is democratic It's there for everyone, everybody has data

Everybody works with data either explicitly or implicitly Data is democratic, so is Data Science And really, my overall message is You can do it! You know, a lot of people think you have to be this cutting edge, virtual reality sort of thing 그리고 그것은 true, there's a lot of active development going on in data science, there's always new 물건 The trick however is, the software you can use to implement those things often lags

It'll show up first in programs like R and Python, but as far as it showing up in a point click program that could be years What's funny though, is often these cutting edge developments don't really make much of a difference in the results of the interpretation They may in certain edge cases, but usually not a huge difference So I'm just going to say analyst beware You don't have to necessarily do it, it's pretty easy to do them wrong and so you don't have to wait for the cutting edge

Now, that being said, I do want you to pay attention to what you are doing A couple of things I have said repeatedly is "Know your goal" Why are you doing this study? Why are you analyzing the data, what are you hoping to get out of it? Try to match your methods to your goal, be goal directed 초점 on the usability; will you get something out of this that people can actually do something 와 Then, as I've mentioned with that Bayesian thing, don't get confused with probabilities

Remember that priors and posteriors are different things just so you can interpret things accurately Now, I want to mention something that's really important to me personally And that is, beware the trolls You will encounter critics, people who are very vocal and who can be harsh and grumpy and really just intimidating And they can really make you feel like you shouldn't do stuff because you're going to do it wrong

But the important thing to remember is that the critics can be wrong Yes, you'll make mistakes, everybody does 있잖아, 나 못해 tell you how many times I have to write my code more than once to get it to do what I want it to do But in analysis, nothing is completely wasted if you pay close attention

I've mentioned this before, everything signifies Or in other words, everything has meaning The trick is that meaning might not be what you expected it to be So you're going to have to listen carefully and I just want to reemphasize, all data has value 그러니 확신해라

your listening carefully In sum, let's say this: no analysis is perfect The real questions is not is your analysis perfect, but can you add value? And I'm sure that you can 과 fundamentally, data is democratic So, I'm going to finish with one more picture here and that is just jump write in and get started

You'll be glad you did To wrap up our course "Statistics and Data Science", I want to give you a short conclusion and some next steps Mostly I want to give a little piece of advice I learned from a professional saxophonist, Kirk Whalum And he says there's "There's Always Something To Work On", there's always something you can do to try things differently to get better It works when practicing music, it also works when you're dealing with data

Now, there are additional courses, here at datalabbcc that you might want to look at They are conceptual courses, additional high-level overviews on things like machine learning, data visualization and other topics 그리고 나 encourage you to take a look at those as well, to round out your general understanding of 필드 There are also however, many practical courses

These are hands on tutorials on these statistical procedures I've covered and you learn how to do them in R, Python and SPSS and other programs But whatever you're doing, keep this other little piece of advice from writers in mind, and that is "Write what you know" And I'm going to say it this way 탐색 and analyze and delve into what you know Remember when we talked about data science and the Venn Diagram, we've talked about the coding and the stats

그러나 이것을 잊지 마라 part on the bottom Domain expertise is just as important to good data science as the ability to work with computer coding and the ability to work with the numbers and quantitative 기술 But also, remember this You don't have to know everything, your work doesn't have to be perfect

The most important thing is just get started, you'll be glad you did Thanks for joining me and good luck!

영화 '치인트' 유정선배로 돌아온 박해진 달콤살벌 '하이컷' 봄화보

영화 '치인트' 유정선배로 돌아온 박해진 달콤살벌 '하이컷' 봄화보 하이컷 [인사이트] 황규정 기자 = 모든 게 완벽하지만 베일에 싸인 치즈인더트랩 유정선배로 관객들을 찾는 배우 박해진의 새 하이컷 화보가 공개됐다

28일 로맨스릴러 영화 치즈인더트랩은 박해진의 치명적인 매력이 담긴 하이컷 화보를 공개했다 이번에 공개된 화보는 영화 속 유정 캐릭터와는 사뭇 다르다 항상 비밀을 숨기고 있는 유정과 달리 화보에서 박해진은 몽환적이면서도 섹시한 매력을 뽐낸다 박해진은 1990년대 청춘 스타를 떠올리게하는 5대 5 가르마와 포마드 헤어스타일로 이미지에 변화를 줬다 여기에 가죽 블루종, 목욕 가운 등을 입고 있는 모습은 워너비 남자친구의 정석을 보여준다

하이컷 이날 화보 촬영 이후 진행된 인터뷰에서 박해진은 두 번의 유정선배를 연기하며 느꼈던 자신의 솔직한 감정을 털어놨다 앞서 박해진은 tvN 드라마 치즈인더트랩에서도 유정 선배 역할을 맡은 바 있다 그는 드라마에 반해 (영화는) 스릴러적인 부분이 좀 더 보강됐다며 유정 캐릭터도 드라마보다 감정상태가 조금 더 밝다고 말했다 또 드라마에선 처음부터 이상한 선배라는 설정을 깔고 가지만, 영화에서는 다른 후배에게는 멀쩡한데 홍설에게만 비밀스러운 면을 내보인다고 덧붙였다

박해진의 설명처럼 드라마에선 느낄 수 없었던 유정의 또다른 매력을 영화에서 만나볼 수 있을 듯하다