[BIBI by Aria] Ep.12 무료 영상 웹툰 비비 | webtoon anime | romance | webcomics animation | 무빙 웹툰 애니 작가 아리아

질문이 있습니다! 왜 당신의 손에 키스하지 못하게합니까? 내가 당신에게 관대하기 때문입니다 어쨌든 아무도 특권을 얻지 못합니다

그러나 당신은 나에게 매너를 가르쳤다 수이 여왕? 꼬리와 함께? 파티에 가지 않습니까? ⋯ 파티? 카 이제 장군이 방금 돌아 왔습니다 그래서 여신들은 환영 파티를 열었습니다 그의 안전한 returrrrn-OUCH를 축하하기 위해! 볼 수 없습니다, 볼 수 없습니다! [안전 반품] ⋯ ?! 여신? 어쩌면 당신은 내 마차를 무시할 수 있습니다 마차?!! 그러나 당신은 나에게 그런 짓을하지 않습니다

…폐하 kid 가자, 꼬마 지금 가도 늦지 않습니다! 그의 안전한 귀환?! 그러나- 그는 단지 거기 있었다 두 사람이 친구가되면 좋을 것입니다 나는 그렇게 생각하지 않습니다 어쨌든, 우리는 어디로 가고 있습니까? 다시는 방문해서는 안됩니다 오? 걱정마 오늘날 우리는 단순히 무언가를 찾고 있습니다

아, 그렇습니다

[BIBI by Aria] Ep.5 무료 영상 웹툰 비비 | webtoon anime | romance | webcomics animation | 무빙 웹툰 애니 작가 아리아

나는 당신을 확신합니다 그분을 석방시켜 주시 ​​오

그러나 선생님 명령입니다 실제로, 나는 '그러나'라고 말했다 그러나 선생님! 이해가 안 돼요 그는 기억이나 마술이없는 인간 일뿐입니다 또한 그는 나를 착각하고 공격받을 수 있습니다 하인이 필요한 것이라면, 저는 그는 좋아 보인다

용서? 잘 생긴 사람이 있으면 좋을 것 같습니다 ⋯ 나도 goo- 농담이야, 리 감사합니다! 이제 당신 만이 읽을 수 있습니다 괜찮아! 카 이제 안녕하십니까 우리는 당신을 그리워했습니다 이번에는 몇 명이나 죽였습니까? 우리가 당신을 좋아하는 이유입니다

그러나- 뭔가 바뀌 었어 무엇입니까? 무엇이 바뀌 었습니까? 그래도 맛있어 보여요 항상 그렇듯이 통과 할 수 있습니다 이 방법 언젠가 당신을 먹을 수 있기를 바랍니다 다시 방문하십시오 따라가 재미 있어야합니다

카 이제 희 희희 폐하 카 이제, 당신은 당신이 나를 위해 무엇이든 할 것이라고 말했다 나는 확실히했다 권리? 당신은 나의 충성스러운 주제이기 때문에 맞습니까? 그것을 증명할 시간 너무 외워! 아마도 내가 새 사람이기 때문일 것입니다

명령입니다 "주문입니다" 정말 대단했습니다

[BIBI by Aria] Ep.10 무료 영상 웹툰 비비 | webtoon anime | romance | webcomics animation | 무빙 웹툰 애니 작가 아리아

어땠어? 그는 조금 반응했습니다 그러나 우리는 오렌지 향기가 그 원인인지 알 수 없습니다

그런 다음 그는 장소를 폭파했다 100 % 확실하지 않지만 -나는 우리가 처음으로 그를 다쳤다고 생각한다 그는 곧 돌아올 것이다 확인해야합니다 그의 상처가 깊은 경우 -넌 뭘해야 할 지 알 잖아 오렌지 향기

신들은 보통이 향기를 싫어합니다 그들은 힘이없는 것을 싫어하고 인간처럼 느끼는 것을 싫어합니다 그러나 나에게는 감상적인 가치가 있습니다 ⋯ ?! ⋯ 누가? 아무도 여기에 오지 않습니다 ⋯ 내가 여기 온 이유입니다 ⋯ 나는 죽여야한다 ⋯ can 수 없습니다 b 너무 ⋯하다 ⋯ ⋯이 향기는 친숙합니다 ㅁ ⋯

How to stream big data with Data Accelerator for Apache Spark | Azure Friday

>> Apache Spark 용 데이터 가속기 Azure 내에서 빅 데이터 스트리밍을 단순화합니다 그것은 풍부한, 작성, 편집, 사용하기 쉬운 경험 Apache Spark 작업 관리 Azure HDInsight 또는 활성화 Apache Spark 엔진의 모든 기능 인코딩은 선택 사항입니다

Jeff Stana는 오늘 Azure Friday에서 어떻게 작동하는지 보여줍니다 [음악] >> 안녕하세요, Donovan Brown 님과 함께 Azure Friday의 또 다른 에피소드 나는 Jeff와 함께 여기에 대해 배울 것입니다 Apache Spark 용 데이터 가속기 너무 멀어지기 전에 나는 Apache Spark가 무엇인지조차 모른다 >> Apache Spark는 빅 데이터의 배관과 같습니다

클라우드에서 데이터를 실행하기위한 클러스터입니다 메모리에서 실행되고 5 살입니다 재미 있고 사람들이 사용하고 있습니다 성능에 정말 좋습니다 >> 알았습니다

빅 데이터 분야를 본 사람은 Apache Spark가 무엇인지 알 것입니다 >> 네 >> 지금 우리가 말하는 것은 특정 서비스에 해당하는 Data Accelerator >> 맞아 우리가 부부를 시작했을 때 몇 년 전에 생산 시스템을 구축했습니다 우리는 많이 없었습니다 찾고있는 규모로 작동하는 도구 그래서 우리는 Apache Spark로 옮겼습니다 빠르고 우리의 요구에 부응 할 수 있었기 때문에 그러나 삶의 질의 많은 부분 주변에는 아직 존재하지 않았습니다

그래서 우리는 많은 시간을 보냈습니다 당신이 가지고 있도록 이러한 구성 요소를 구축 파이프 라인 개발 및 관리를위한 풍부한 환경 >> 알겠습니다 알았다 오늘 우리에게 보여줄 것을 보여주세요 이것을 데이터 가속기라고합니까? >> 네 4 월에 소스를 오픈했습니다 그래서 커뮤니티는 그것을 가져 와서 스스로 사용할 수 있습니다

꽤 빨리 시작됩니다 시작하는 두 가지 방법이 있습니다 첫 번째는 ARM 템플릿입니다 기본 설정으로 Azure에 바로 배포 할 수 있습니다 다른 하나는 Docker 이미지가 있으므로 자신의 데스크탑 컴퓨터에서 Azure에서 직접 작업하지 않고도 실험을 수행 할 수 있습니다

처음 배포 할 때 바로 여기에 있습니다 우리의 포털은 모든 데이터를 가지고 있습니다 GitHub 리포지토리에있는 모든 자습서도 여기에 있습니다 당신을 위해 그들 중 약 20이 있습니다 박스 시나리오와 그 중 25 개는 클라우드 용입니다 따라서 모든 기능을 바로 사용할 수 있습니다

시작하고 시작하기 쉽습니다 >> 이걸 Azure에 배포하면 이것은 내가 볼 것입니다 또는 내가 달리면 데스크탑의 로컬 컨테이너 소년 브라우저의 올바른 포트로 이동합니다 이것이 바로 내가 얻게 될 경험입니까? >> 맞습니다 당신은 여기에있을 것입니다 >> 알겠습니다

완전한 >> 맞아 당신이 가고 싶은 첫 번째 장소는 바로 흐름입니다 흐름은 기본적으로 파이프 라인입니다 언제든 데이터를 가져 오려고합니다 한 곳에서 다른 곳으로, 파이프 라인입니다

IoT 샘플로 바로갑니다 여기서 IoT 샘플은 사전 구성되어 있습니다 우리의 튜토리얼 중 하나입니다 왼쪽에 탭이 있으며 여기에 있습니다 당신이 할 단계를 아래로 자체 파이프 라인을 구성 할 때 먼저 이름을 짓고, 할 일이 많지 않습니다

이제 우리는 당신이 그것을 정의하는 방법에 도달합니다 데이터 액셀러레이터는 현재 스트리밍을 제공합니다 우리는 일괄 처리를 위해 노력하고 있습니다 앞으로 몇 주 안에 우리는 당신이 할 수있는 많은 데이터 소스를 가지고 있습니다 스트리밍 파이프 라인에 연결 이러한 다양한 장소 중 일부를 제공 할 수 있습니다 우리는이 사건의 허브 이름을 정했습니다

귀하의 연결 정보, 귀하의 가입 ID, 그리고 주위에 많은 데이터, 연결하는 데 필요한 모든 구성 옵션 데이터 소스로 데이터 가속기 다른 구독에있을 수 있습니다 그리고 당신의 출력 목적지 다른 구독에있을 수도 있습니다 여기서는 많은 일대 다 상황입니다 이 구성을 완료하면 파이프 라인이 배포됩니다 그런 다음 규칙으로 넘어갑니다

데이터가 전달 될 때 수행 할 작업 이를 위해이 시나리오에는 기본적으로 몇 가지가 있습니다 그러나 여기에서 볼 수 있듯이 쿼리 빌더 인터페이스가 있습니다 에 규칙을 구성 할 수 있습니다 여기에 코드를 작성하지 않고 데이터 세트를 작성하십시오 >> 데이터가 JSON이나 XML로 제공되어야합니까? >> 좋은 질문입니다

다음 단계에서 우리는 옳기 때문에 우리가 암시 적 스키마 탐지라고 부르는 예를 들겠습니다 그것은 바로 여기에있었습니다 여기에 스키마 가져 오기 버튼이 있으며 그 기능은 Event Hub를 통해 흐르는 데이터를 샘플링합니다 이 경우 15 초가 흐릅니다 찾은 모든 JSON을 식별합니다

함께 묶어서 나머지 도구보기의 개체 모델 >> 당신은 JSON이라고 말했고 나는 매우 구체적이고 싶습니다 내 데이터 소스가 XML을 생성하고 있는데 작동하지 않습니까? >> 이벤트 허브로 만드는 모든 것을 읽습니다 일단 이벤트 허브에 있으면 읽습니다 스키마를 JSON으로 저장합니다 >> 알았습니다

>> 네 규칙은 해당 객체 모델에 대해 알고 있습니다 우리가 pick이라고 말할 때 어떤 종류의 이벤트입니까? 이미 사전로드되어 있습니다 그러나 한 걸음 더 깊이 나아갈 수 있습니다 들어가고 실제로 쿼리를 직접 작성하려면 우리는 바로 그 능력을 가지고 있습니다

데모는 다수의 당신을 보여주는 기본 쿼리, 모든 기능을 수행합니다 우리가 가진 흥미로운 것들 중 일부는 Spark SQL에 추가 한 출력 매크로 그것은 기본적으로 당신이 어떻게 넣어 마무리 완료 후 특정 위치의 데이터 손가락을 뚱뚱하게 할 수있는 방법이 많이 있기 때문에 출력물을 섞어서 이건 그냥 매크로 코드를 작성하고 유지해야합니다 >> 알겠습니다 >> 또한 Windows와 같은 것들이 있습니다 윈도우, 슬라이딩 윈도우, 텀블링 윈도우, 데이터를 집계하고 기다릴 수 있도록 늦은 이벤트 또는 풀 계속하기 전에 잃어버린 것들에 이 마지막 부분은 우리의 많은 경험 시작에 동기를 부여했습니다 내가 일하고 대본을 쓸 때 클러스터에 제출됩니다

대기열의 길이는 약 2 시간입니다 프로비저닝 및 실행은 약 15 분입니다 내 직업은 2 분이 걸 렸어요 그래서 나는 두 시간 만에 아니면 내가 뭔가 잘못 썼다 계속해서 여기서 잘못된 것을하겠습니다 우리가하려고하는 것은 실시간 러닝 경험을 볼 것입니다

우리가 한 일은 커널을 샘플링 한 것입니다 이제 두 시간 동안 기다리지 않고 그 줄을 통해 다른 사람들을 위해 자원을 위해 싸우고 바로 거기에 답이 있습니다 그래서 가서 코드를 고칠 수 있습니다 >> 이것이 인터 루프에 정말로 도움이 되나요? >> 그렇습니다 정말, 정말 강화합니다

오, 공백을 처리하지 않습니다 다시 실행하고 쿼리를 선택합니다 >> 우리는 간다 >> 우리는 간다 그래서 나는 내 의견은 바로 지금 유형을 인식하지 못한다고 말합니다

물론 이죠 여기에 참치 샌드위치가 있습니다 여기로 내려 가면 지위가 있습니다 >> 몇 시간 기다려야한다면 정말 고통 스러울 것입니다 오타를위한 2 시간 >> 오타가 있습니다 많이 지출 시간이 많이 걸리지 않습니다

그래서 우리는 그것을 얻을 수 있도록 바로 지금 여기에 모든 것이 있습니다 >> 제목을 들었을 때 내 생각에 어떤 이유로 든 Data Accelerator를 생각했다 그냥 속도 향상에 대해 섭취 데이터이지만 이것은 실제로 더 많은 가치를 제공합니다 이것은 실제로, 나는 내가 할 수있는 개발 환경 훨씬 더 빠르고 빠른 인터 루프 내 개발 과정 >> 맞아요

우리는 이것을 만든 개발자 도구 조직입니다 우리에게는 이것이 VS 코드 편집기입니다 테마를 변경할 수 있습니다 IntelliSense가 있습니다 코드에 괜찮습니다

>> 웹 기반이므로 완전히 액세스 할 수 있습니다 Azure 또는 [들리지 않음]에 배포 한 후 어디서나 >> 정확하게 구독에 액세스하면 포털을 통해 필요한 것을 얻을 수 있습니다 우리가 튀어 나와서 할 수 있다면 >> IntelliSense도 받으려고합니까? >> 네 >> 난 그냥 제거 할 수 있습니다 상태를 표시 한 다음 세부 정보가 닫힌 후 점을 찍습니다 >> 그렇지 않습니다 >> 우리는 간다 >> 우리는 간다

그래서 이전에 감지 한 스키마에 대한 모든 것을 알고 있습니다 이것은 당신이 처리 할 때 좋습니다 실제 시스템에는 수천 가지 버전이 있으므로 시장에서 제품의 같은 시간 또는 하드웨어 조각 따라서 버전마다 작은 변형이 있습니다 스키마는 "이것들은 모두 똑같아 보인다"고 말할 것입니다 붙여 넣는 데 도움이됩니다

동일한 문서 모델에서 서로를 얻는 방법 보통 8 시간 동안 스키마 유형을 온 보딩합니다 >> 제가 보여 드린 것은 IoT 사례입니다 이 데이터는 자동차 또는 공장 또는 어디서나 우리는이 모든 작은 장치에 수많은 데이터를 저장했습니다

우리는 이제 우리가 할 수있는 아주 쉬운 방법을 가지고 있습니다 상호 작용 자루에 규칙을 작성하기 위해 우리는 내부 루프에 대해 이야기하고 있습니다 심지어 비 확대 개발자도 있습니다 네가 보낸 시간이있어 당신의 기계에 그것을 구축하려고하고 당신은 가능한 한 효율적으로 만들어서 배포하기 전에 해당 오류를 찾을 수 있습니다 그게 지금 할 수있는 일이야 >> 맞아 바로 그거죠

당신은 할 수 있었다 당신이 가기 전에 생산 준비, 당신이 전혀 그것을 밀기 전에 굉장합니다 그것은 매우 중요하기 때문에 IoT를 사용하는 경우 20 년의 레거시 작업을 수행해야합니다 그것은 하드웨어 폐기 사이클의 생산 부분입니다 오랫동안 사용하지 않은 제품이 있다면 Visual Studio IDE는이 시점의 가변 제품입니다

많은 버전에 대한 데이터 모든 것을 함께 잡아 당겨 작업 할 수 있습니다 아주 빨리 우리에게 큰 승리였습니다 물론, 우리는 또한 계획을 짜고 있습니다 >> 당신은 어두운 것을 가지고있어 >> 맞습니다

그래서 우리는 규칙을 얻을 수 있습니다 매우 빠르게 실행되었습니다 우리는 또한 더 많은 일을 할 수 있고, 참조 데이터를 추가 할 수 있습니다 많은 사람들이 그들이 환경에 대해 알고있는 사실 테이블 당신은 말할 수 있기를 원합니다 "이 온도 센서는이 도로에 있습니다 이 창고,이 도시,이 주에 있습니다

" 그것이 당신이 이것을 끌어 당기는 곳이며 어디서나 찾을 수 있습니다 우리는 또한 기능을 끌어 냈습니다 들어 와서 추가 할 수 있습니다 사용자 정의 함수, Azure 함수, 필요한 것은 코드를 작성하고 당신은 거기에, 우리는 그냥 할 수 있습니다 파이프 라인에서 실행하는 동안 참조하십시오 >> 알았어 그래서 이것은 내가 할 수있는 방법입니다 거의 필터 또는 어떤 유형의 파이프 라인의 일부로 데이터 조작 제공된 정보에 의존하지 않는 자신을 쓰셨습니까? >> 맞습니다 작업을 활용할 수 있습니다 회사 나 팀이 지난 몇 년간 해왔지만 오늘 바로 파이프 라인에 넣습니다

마지막으로 우리가 보낸 것은 출력입니다 Blob, Cosmos DB, Event Hubs, Event Hub에서 Event Hub 및 SQL Database로 보낼 수 있습니다 또한 기본적으로 메트릭 대시 보드가 있습니다 스케일에는 몇 가지 슬라이더 기호가 있습니다 스케일 업 및 다운 스케일링

여기에 포함 된 메트릭 보드 파이프 라인에서 무슨 일이 일어나고 있는지 요약 해 줄 것입니다 설정 한 각 규칙은 메트릭으로 표시됩니다 따라서 규칙을 작성하면 바로 여기에 있습니다 샘플은 이벤트 시뮬레이터로 구동됩니다 따라서 시작하기 위해 라이브 이벤트 허브에 연결하지 않아도됩니다

당신은 처음부터 모든 것을 볼 수 있습니다 훌륭합니다 이 경우 이미 70,000 개의 이벤트를 수집했습니다 오늘과 우리는 닫힌 알림이 여러 번 사라졌습니다 이 알림은 이제 웹 페이지에 붙여 넣을 수 있지만 또한 문자 메시지를 보내거나 전자 메일을 보내는 것처럼 연결하십시오

따라서 파이프 라인에서 바로 학습 내용을 얻을 수 있습니다 >> 대단합니다 >> 네 >> 그러면이게 모두 오픈 소스라고 했어요? >> 예, 우리는이 전체 파이프 라인을 오픈 소스로 만들었습니다 우리에게는 2 년 동안 프로덕션 환경에서 사용해 왔습니다 배포 규모가 매우 크며 우리는 하루에 테라 바이트를 처리하고 있습니다

크다 >> 네 >> 우리가 유지하고있는 오픈 소스 프로젝트 우리는 그 저장소에서 바로 실행하고 있습니다 계속해서 Kafka에 대한 지원을 추가했습니다 Databricks에 대한 지원을 추가하고있었습니다 우리는 피드백을 듣고 있습니다 사람들이이 방향으로 함께 모일 다른 것을 생각하거나 보지 못했지만 우리는 그것에 관심이 있습니다

>> 그들은 그것을 어디에 기여합니까? >>이를 위해 GitHub 리포지토리가 있습니다 GitHubcommicrosoft / dataaccelerator 할 수 있듯이 코드와 이슈가 있고 바로 여기에 있습니다 이것은 우리가 본 포털과 매우 유사합니다

다시, 당신이 얻는 데 필요한 모든 정보 시작은 여기 GitHub 페이지에 있습니다 >> 대단합니다 정말 고맙습니다 우리는 Data Accelerator에 대해 모두 배우고 있습니다 Azure Friday의 Apache Spark는 여기에 있습니다

[음악]

[만화책추천] 네이버웹툰 단행본 Ho! | 윤자수기

오늘은 또다른 책 리뷰 영상을 가지고 왔는데요 오늘은 제가 보통 가지고 오는 소설책이 아닙니다 바로 만화책인데요 네이버웹툰에서 연재되던 만화를 단행본으로 낸 것을 제가 사서 읽어봤는데요 그럼 이 책 리뷰 시작해보도록 하겠습니다 오늘 리뷰할 만화책은 억수씨라는 작가님의 'Ho!'입니다 1권 2권 3권 이렇게 총 3권으로 구성이 되어있고 저는 한 번에 3권을 다 구입했습니다 1권을 보면 제목 Ho!라고 적혀있고 한 아이가 그려져있는데요 이 아이가 만화의 주인공인 '호'입니다 호는 귀가 잘 들리지 않는 청각장애인입니다 이 아이는 어릴적에 학원을 가면서 한 사람을 만나게 되고 나중에 그 사람과 결혼을 하는데요 그 이야기가 담겨져있습니다 2권의 표지에 보면 이렇게 한 남자가 그려져있습니다 이 사람이 만화의 남자주인공인데 나중에 호와 결혼을 합니다 총 3권으로 구성된 만화책은 1권에서는 어떻게 두 사람이 만났는지 두 사람의 첫 만남을 다루고 2권에서는 두 사람이 떨어져있는 동안 이 남자가 어떤 일상을 보냈는지를 그리고 있습니다 그리고 마지막 3권에서는 두 사람이 만나서 연애를 하고 결혼까지 가는 과정을 그리고 있습니다 웹툰을 제가 그렇게 많이 보는 편이 아니거든요? 그래서 이 책은 몰랐는데 채희선님과 겨울서점님의 콜라보 영상에서 이 만화책의 존재를 알게 됐고 청각장애인과의 연애, 결혼 스토리라는 말에 이 내용이 궁금해져서 구입을 해봤습니다 1권과 2권은 술술 잘 읽히고 중간 중간 피식거리게 되는 일상툰의 느낌으로 볼 수 있는데요 이 만화 자체가 일상, 생활을 다루고 있기 때문에 그런 느낌이 특히 강합니다 하지만 3권에 있어서는 조금 더 메시지를 독자에게 전해주는 느낌이 들었는데요 3권에 대해서 논하기 전에 먼저 1권과 2권에 대해 여러분들께 말씀드리려고 합니다 표지에서만 봐도 호랑 이 '김원이'라는 남자주인공의 나이 차이가 꽤 많이 나보이죠? 사실 둘은 학원에서 선생님과 제자로 처음 만납니다 그래서 두 사람의 나이 차이는 8살인데요 처음에 호가 6학년일 때 만나는 걸로 시작을 하기 때문에 '이거 조금 위험한 거 아닌가?' 라는 생각이 들었는데 두 사람이 나중에 다시 만날 때는 성인이 되어서 만납니다 그래서 1권과 2권을 읽을 때는 선생님을 짝사랑하는 귀여운 아이의 모습이 많이 담겨져있어요 저는 "둘 중에서 뭐가 더 좋았냐?"라고 묻는다면 1권이 조금 더 좋았어요 왜냐하면 2권은 아무래도 이 '김원이'라는 사람에 초점이 맞춰져서 진행이 되기 때문에 20대의 취업에 대한 고민 생활에 대한 걱정 그러면서도 나의 지금 생활에 안주해버리고 마는 이런 모습들이 많이 담겨져있기 때문에 웃기는 하지만 어딘가 약간 씁쓸하달까? 그런 느낌이 들었는데 1권은 굉장히 귀여웠어요 그래서 둘 중에서는 저는 1권이 조금 더 좋았습니다 그럼 이제 3권으로 넘어가보도록 할게요 제가 앞서서 3권에서는 두 사람이 연애를 하고 결혼까지 가는 과정을 다루고 있다 라고 말씀을 드렸는데요 그렇기 때문에 현실의 벽에 부딪히는 모습이 많이 나옵니다 우리가 '청각장애인'이라고 했을 때 떠올리는 이미지들이 있잖아요? 읽다가보면은 아 나도 모르게 이런 생각을 가지고 있었구나 이런 편견을 가지고 있었구나 반성해야겠다 이런 생각도 들고 여러가지 메시지가 들어있습니다 라는 말이 나와요 우리가 누군가를 다르게 보려고 하면 얼마든지 다르게 볼 수 있고 그렇게 보니까 자꾸 그 사람이 달라보이는구나 라는 생각을 한 번 더 하게 되었습니다 비단 이 책에서 다루고 있는 청각장애인 뿐만 아니라 우리가 어떤 장애인과 비장애인 커플을 봤을 때 떠올리는 생각들 그리고 그냥 장애인을 막연히 마주했을 때 떠오르는 생각들이 있잖아요? 그저 그 사람으로 바라보면 괜찮은데 아 저 사람은 장애인이니까 뭐 어떨거야 저 사람은 장애인이니까 우리가 어떻게 해야돼 라는 그런 편견들이 있잖아요? 그런 거를 조금은 부숴주는 그런 책이라고 생각합니다 그래서 이런 것에 관심이 많은 분들은 이 'Ho!'라는 책을 좀 귀염뽀짝하면서도 메시지를 주는 책이다 라고 생각하시면서 읽을 수 있을 것 같아요 그리고 편견과 이어지는 또다른 이야기가 있는데요 처음에 이 남자 주인공이 어머니에게 자기가 여자친구가 생겼다 집에 소개를 시켜드리고 싶다 라고 했을 때는 아 진짜 좋다고 막 어떤 애냐, 어떤 아가씨냐 이렇게 물어봤는데 청각장애인이에요 귀가 잘 들리지 않아요 라고 말 한 순간부터 정적이 이어지더니 "그럼 나는 싫다"라고 반응을 합니다 엄마가 왜 그래? 이 엄마 왜 그럴까? 라는 생각이 드는게 아니라 '그래 현실이 이렇지'라는 생각이 자연스럽게 떠오르더라구요 이렇게 자연스럽게 떠오르는 생각이 조금은 슬펐습니다 이 원이씨의 아버지는 굉장히 호탕한 성격이고 편견 없이 받아들이는 사람 중 한 사람으로 그려지는데 호와 원이씨가 집에 인사를 하러 갔을 때부터 그냥 "어! 예쁜 아가씨네!" 이렇게 하고 좋아하고 같이 친해지려고 노력하는 그런 스타일이에요 이 남자주인공의 어머니가 이 커플을 반대했다고 했잖아요? 그런데 막상 집에 갔더니 신기한 일이 벌어집니다 이거는 여러분들께서 만화책으로 확인하시면 좋을 것 같아요 저는 3권이 메시지를 담고 있는 측면에서 가장 좋았습니다 3권으로 구성된 만화책 'Ho!'를 여러분들께 소개시켜드렸는데요 그렇다면 이 책을 여러분들께 추천하는지, 추천하지 않는지까지 말씀드려야겠죠? 저는 이 만화책을 여러분들께 추천드리고 싶습니다 메시지를 담고 있지만 유쾌하게 풀어냈다라는 점도 물론 좋았지만 힐링되는 따뜻한 만화 한 편 읽고싶다 하시는 분들께도 굉장히 좋은 책이라고 생각해요 제가 계속 말씀드린 것처럼 피식피식 웃게 되는 장면들이 있기 때문에 만화는 킬링타임용이지! 만화는 재밌어야돼! 하고 생각하시는 분들께도 이 책은 선택하면 좋은 책이다! 라고 말씀드릴 수 있습니다 이 책을 통해서 억수씨라는 작가님을 알게 되었는데 이 작가님의 다른 작품도 찾아서 읽어보고 싶은 생각이 들었습니다 혹시 여러분들께서 좋아하시는 웹툰인데 단행본으로 나온 책이 있습니다 라고 하시면 아래 댓글로 저에게 많이 많이 알려주세요 웹툰을 단행본으로 사서 읽는 걸 굉장히 좋아하거든요 이렇게 해서 만화책 'Ho!' 리뷰와 제가 추천하는지 여부까지 말씀드렸습니다 지금까지 영상 봐주셔서 감사드리고 저는 다음 영상으로 돌아오도록 하겠습니다

Spark Tutorial for Beginners | Apache Spark Architecture | Spark Components | Intellipaat

안녕하세요 Apache Spark Architecture 세션에 오신 것을 환영합니다

우리가 보자 오늘의 의제 이 세션에서 우리는 진짜를 가지고 시작합니다 스파크가 직면 한 문제를 해결하는 데 사용 된 시간 산업 유스 케이스 야후 그런 다음 스파크가 무엇인지 이해하고 그 중 일부에 약간의 빛을 비 춥니 다 풍모 그 후 우리는 다른 구성 요소를 볼 수 있습니다 스파크 아키텍처를 자세하게 다루고 마지막으로 스파크 응용 프로그램을 만드는 방법을 배웁니다

문제를 이해하도록하겠습니다 야후는 스파크에 직면하고있다 야후의 자산은 관련성을 극대화하십시오 즉, 개인화를 제공하기 위해 사용하는 알고리즘 광고를 타겟으로하고 개인화 된 콘텐츠는 정교하고 관련성 모델을 자주 업데이트해야했습니다 뉴스 피드와 뉴스는 시간이 지남에 따라 계속 바뀌었고 Yahoo도 150 개가 넘었습니다 35,000 노드 하둡 클러스터에 저장된 페타 바이트 단위의 데이터 데이터 이동으로 인한 대기 시간을 피하기 위해 효율적으로 액세스 또한 비용 효율적인 방식으로 데이터로부터 통찰력을 얻습니다

야후는 SPARK를 통해 반복 모델의 성능을 향상시켰다 훈련 뉴스에 사용 된 기계 학습 알고리즘 약 15,000 줄의 C ++ 코드가 필요한 개인화 spark로 구현 된 머신 러닝 알고리즘은 120 개에 불과했습니다 스칼라 프로그래밍 코드 라인과 알고리즘은 프로덕션 환경에서 사용 가능 1 억 개의 레코드가있는 데이터 세트에 대한 단 30 분의 교육으로 지금 그다지 놀랍지 않습니다 야후는 뉴스를 개인화하기 위해 아파치 스파크를 사용한다 웹 페이지 및 타겟팅 된 광고 야후는 기계 학습도 사용합니다 어떤 종류의 뉴스 사용자인지 알아 내기 위해 아파치 스파크를 실행하는 알고리즘 읽고 뉴스 기사를 분류하는 데 관심이 있습니다

어떤 종류의 사용자가 각 뉴스 카테고리를 읽는 데 관심이 있고 스파크의 도움으로 야후는 또한 모델 훈련의 대기 시간을 줄일 수 있었다 메모리 처리를 통해 이제 어떻게 야후를 이해했는지 스파크의 혜택 이제 스파크에 대해 간단히 이해하겠습니다 그래서 그것은 실시간 처리를위한 클러스터 컴퓨팅 프레임 워크 실제로 2009 년 UC Berkeley R & D 연구소에서 Hadoop 하위 프로젝트 도입 2010 년에 오픈 소스가되었고 2013 년에 Apache Software에 기증되었습니다

기초 따라서 모든 클러스터를 프로그래밍하기위한 인터페이스를 제공합니다 암시 적 데이터 병렬 및 내결함성 이제 우리 중 일부를 보자 스파크의 흥미로운 특징 스파크는 실시간 계산과 낮은 대기 시간을 제공합니다 메모리 내 계산으로 인해 스파크가 대규모 데이터 처리 및 SPARK도 폴리 글롯이므로 SPARK를 작성할 수 있습니다

Java, Scala, Python 또는 SQL과 같은 여러 언어로 된 응용 프로그램 불꽃 강력한 캐싱 기능을 제공하므로 강력한 캐싱 및 디스크 지속성 기능과 SPARK는 여러 배치 모드를 통해 메조, 헤 도프 경사, 또는 자체 클러스터 관리자를 시작하십시오 이제 스파크 충격도 거의 모든 단일 회사가 포춘 500 대 기업에 소규모 창업 규모를 구축하고 빅 데이터 애플리케이션을 혁신하기위한 Apache Spark 산업 미디어, 건강 관리, 금융, 전자 상거래 및 여행과 같이 거의 모두 스파크를 사용하고 있습니다 집중적으로

이제 rdd 's의 개념을 이해해 봅시다 따라서 여러 작업에서 데이터를 처리 할 때는 재사용하고 인 메모리 데이터 공유를 통해 얻을 수있는 데이터 공유 실제로 네트워크 및 디스크 공유보다 빠릅니다 이것이 바로 메모리 내 데이터 공유를 돕기 위해 rdd가 제공되는 곳입니다 그래서 rdd는 탄력적 인 분산 데이터 세트를 나타내며 기본 데이터입니다 탄력적으로 아파치 스파크의 구조는 다음과 같이 내결함성을 의미합니다 노드 장애 발생시 누락되거나 필요한 파티션을 다시 계산할 수 있습니다

rdd 연계 그래프의 도움으로 데이터 이후에 배포되었습니다 여러 노드에 상주하며 마지막으로 데이터 세트는 데이터 레코드를 나타냅니다 당신은 함께 일합니다 사용자는 외부에서 데이터 집합을 알 수 있습니다 JSON 파일, CSV 파일, 텍스트 파일 또는 데이터베이스 그래서 rdd는 불변입니다 객체 수집 및 RDD 변경 시도로 완전히 새로운 결과 rdd

이제 이것을 이해하겠습니다 수행을 위해 rdd를 고려하십시오 지도, 필터 등의 변형 그래서 이것은 완전히 새로운 RDD를 만들지 만 아무것도 계산하지 않습니다 결과를 계산하려면 카운트와 같은 rdd에 대한 작업을 수행하고 텍스트 파일로 저장하는 등 그에 따라 결과를 표시하십시오 이제 다양한 구성 요소를 이해하겠습니다 스파크 생태계 가장 스파크 코어 구성 요소부터 시작하겠습니다 기본적인 IO 기능을 담당하는 스파크 생태계의 필수 구성 요소 스케줄링, 모니터링 등

스파크 생태계 전체가 그 위에 구축됩니다 그런 다음 다른 배포 모드가 있습니다 스파크 캔 원사, 메시 또는 스파크 자체 클러스터 관리자를 통해 hadoop을 통해 배포됩니다 그런 다음 다른 라이브러리가 있습니다 이 스파크 생태계 라이브러리는 스파크 SQL, mlib, 그래픽 및 스트리밍

Spark SQL은 우리가 수행하는 데 도움이됩니다 데이터에 대한 쿼리와 SQL과 같은 쿼리를 사용하여 데이터를 저장하면 mlib가 있습니다 이 스파크 머신 러닝 라이브러리는 배포를 쉽게하고 확장 가능한 머신 러닝 파이프 라인 개발 요약 통계, 상관 관계, 기능 추출 및 기타 여러 가지 스파크의 그래픽 구성 요소는 데이터 과학자가 그래프 작업을 돕습니다 그래프에서 유연성과 탄력성을 얻기위한 비 그래프 소스 건축과 변형 그런 다음 마침내 스파크 스트리밍이 있습니다 일괄 처리 및 데이터 스트리밍을 수행 할 수있는 구성 요소 응용 프로그램에서

프로그래밍 언어로 오는 불꽃은 Scala, R, Python 및 Java에서 구현됩니다 그러나 스칼라는 널리 사용됩니다 스파크 언어로 최종적으로 HDFS 로컬 파일 시스템을 통해 데이터를 저장할 수 있습니다 그리고 구름 또한 SQL 데이터베이스를 지원하지 않고 SQL 학습을 지원합니다 그래서 지금 당신은 Spark 구성 요소에 대한 간단한 아이디어가 있습니다

이제 SPARK에 뛰어 들자 건축물 따라서 Apache spark에는 잘 정의되어 있습니다 모든 스파크 구성 요소와 레이어가 느슨하게 결합 된 계층 구조 SPARK는 마스터 / 작업자 아키텍처와 마스터 노드에서 응용 프로그램을 구동하는 드라이버 프로그램이 있습니다 드라이버 프로그램이 무엇인지 생각하기 때문에 기본적으로 작성중인 코드 드라이버 프로그램으로 동작하거나 대화식 쉘을 사용하는 경우 쉘 드라이버 프로그램으로 작동합니다

드라이버 프로그램은 이 SPARK 컨텍스트가 작성되는 위치입니다 그래서 가정 이 SPARK 컨텍스트는 모든 SPARK 기능의 관문입니다 이제 SPARK 드라이버에는 태그 스케줄러, 작업 스케줄러와 같은 다양한 구성 요소가 포함되어 있습니다 백엔드 스케줄러 및 블록 관리자는 Spark 사용자 코드를 실제 Spark 작업으로 변환 클러스터에서 실행됩니다 스파크 드라이버와 스파크 컨텍스트는 클러스터 내 작업 실행은 이제 SPARC 컨텍스트가 클러스터와 작동합니다

관리자는 다양한 작업을 관리하고 클러스터 관리자는 Spark 클러스터에서 리소스를 획득하여 Spark 작업에 할당 이 작업은 작업자에게 배포되는 여러 작업에 존재합니다 노드는 언제든지 RDD 연도 및 스파크 컨텍스트를 배포 할 수 있습니다 다양한 메모를 통해 현금으로 교환 할 수 있습니다 실제로 기본적으로 작업을 수행하는 슬레이브 노드 인 노드 작업자 노드 내부에서 스파크 컨텍스트로 결과를 다시 반환 우리는 유언 집행 인이 있으므로 유언 집행 인은 작업 실행 및 모든 Spark 응용 프로그램에는 자체 실행 프로그램 프로세스가 있습니다 따라서 실행자는 일반적으로 스파크 응용 프로그램의 전체 수명 동안 실행됩니다 스파크 컨텍스트는 작업이 작업에서 작업을 중단하고 배포합니다 작업자 노드는 이러한 작업을 파티션 RDD에서 수행하여 작업을 수행합니다

결과를 수집하고 기본 스파크 컨텍스트로 돌아가고 증가하면 작업자 수는 작업을 더 많은 파티션으로 나눌 수 있으며 병렬 I / O를 실행하십시오 여러 시스템이 훨씬 빠르며 작업자 메모리 크기의 증가 또한 증가하고 당신은 작업을 더 빠르게 실행하기 위해 캐시 할 수 있으므로 이제 Spark 런타임을 이해하겠습니다 클라이언트가 스파크 사용자 애플리케이션 코드를 드라이버에 제출할 때의 아키텍처 변환 및 조치가 포함 된 코드를 암시 적으로 드라이버 프로그램 단계에서 논리 지향 비순환 그래프 또는 태그 변환을 계획하는 등의 특정 최적화를 수행 한 다음 논리적 데이터를 이후 단계로 설정할 물리적 실행 계획으로 변환 실제 실행 계획을 작성하면 작은 실제 실행 단위가 작성됩니다 각 단계에서 작업이라고하며 작업이 번들로 전송되어 스파크 클러스터는 이제 드라이버 프로그램을 클러스터 관리자 및 클러스터 관리자 자원 협상 이 시점에서 드라이버를 대신하여 작업자 노드에서 실행자를 시작합니다 드라이버는 데이터 배치를 기반으로 클러스터 관리자에 대한 작업 감지 실행자가 실행을 시작하기 전에 드라이버에 등록합니다 드라이버가 모든 실행 프로그램을 전체적으로 볼 수 있도록 프로그램 실행자가 드라이버에 의해 지정된 다양한 작업을 실행하기 시작했습니다

프로그램 및 Spark 응용 프로그램이 실행될 때 드라이버 프로그램은 실행되고 마지막으로 실행되는 일련의 실행 프로그램을 모니터링합니다 드라이버 프로그램 기본 메소드가 종료되거나 중지 메소드를 호출 할 때 스파크 컨텍스트 모든 실행 프로그램을 종료하고 리소스를 해제합니다 이 불꽃 실행 런타임 아키텍처는 이제 클러스터 관리자를 통해 시스템이 현재 지원하는 바를 배치 할 수있는 다양한 수수료 이 클러스터 관리자는 간단한 독립형 스파크 독립형 클러스터를 갖습니다 스파크에 포함 된 클러스터 관리자를 통해 클러스터를 쉽게 설정할 수 있습니다 바 굴뚝 소스를 가지고 있는데 Hadoop MapReduce를 실행하고 Hadoop 이온을 사용하는 애플리케이션을 서비스합니다

마지막으로 오픈 소스 인 누적 위치에 배포 할 수도 있습니다 컨테이너화 된 자동 배포 확장 및 관리 시스템 SPARC 아키텍처에 관한 모든 것이므로 이제 작은 그들은 불꽃 응용 프로그램을 만드는 방법으로 이동하여 폴더를 만들었습니다 소스 코드로 구성된 환영 세계라는 이름으로 스파크 응용 프로그램 이므로이 폴더 안에 들어가서 CD를 좋아합니다 환영합니다 이제이 구성 요소가 무엇인지 보여 드리겠습니다

폴더는 두 가지 구성 요소가 있습니다 하나는 SBT 파일에 빌드 한 다음 이 청구서 SBT 파일은 기본적으로 모든 스파 응용 프로그램 jar 파일을 빌드하기위한 종속성이므로 보여 드리겠습니다 여러분은 모든 의존성을 가지고 있으므로 VI를 입력하고 이름을 얻습니다 SBT가 아닌 빌드 될 파일이므로 종속성입니다 먼저 우리는 응용 프로그램의 이름을 가지고 다음 버전의 응용 프로그램을 만든 다음 여기에 Scala 버전이 있습니다

이 SRC 폴더에 존재하는 소스 코드를 보여주세요 ced를 입력 한 다음 폴더 SRC와이 SRC 폴더의 이름을 지정합니다 이 CD 메인으로 들어갈 수있는 다른 폴더로 구성되어 있습니다 다시이 메인 폴더는 다른 폴더로 구성되어 있습니다 나도 이것 안에 들어가서 CD 스칼라를 입력 할 것입니다

Scala 폴더 안에 LS를 다시 입력하겠습니다 Scala 폴더 안에 존재하는 Scala 파일은 소스로 구성됩니다 코드를 입력하겠습니다 VI를 입력 한 다음 소스 이름을 입력 할 소스 코드를 보여 드리겠습니다 반점 스칼라를 환영하는이 클래스 이 소스 코드이므로 Falcom이라는 이름의 클래스가 있습니다 그런 다음 이름 기능 내에서 우리는 시원하게 인쇄 했으므로 인쇄 할 것입니다

환영 나무 이것은 불꽃에 대한 세션이므로 환영의 집으로 돌아갑니다 폴더 및 jar 파일 작성 바로 환영 폴더로 돌아가서 여기에 있습니다 SPD와 SRC에서 빌드하므로 jar 파일을 빌드하려면 이것을 사용해야합니다 SBT package 명령을 실행하면 jar 파일이 작성됩니다 바로 jar 파일이 성공적으로 빌드되었음을 알 수 있습니다 jar 파일 홈 교육 환영 세계의 경로와 여기에 우리는 여기에 jar 파일이 있으므로 이것은 jar 파일의 이름입니다

환영합니다 Boyd 그리고 이것은 그것의 버전이므로 이제 LS를 입력하겠습니다 처음에는 SRC 폴더와 Bell dot SBT 파일이 jar 파일을 빌드하면 프로젝트라는 두 폴더가 있습니다 대상 과이 jar 파일 이이 대상 폴더에 있으므로 이 대상 폴더 안에 CD 대상을 입력하겠습니다 이 두 폴더로 다시 구성된 Stargate 폴더는 Scala 211 폴더 안에 들어가서 CD Scala 211을 입력하고 이 안에는 jar 파일이있어서 모두 환영합니다

버전이며 이것은 jar 파일이므로 지금 jar 파일을 준비했습니다 계속해서 작업을 제출하여 응용 프로그램을 작성하십시오 그에 대한 명령은 명령이 촉발 보충 내가 죽을거야-그리고 나일 강의 수업 후 나는 연설을 할 것이다 그런 다음 파일 이름을 지정하여 파일 이름을 환영합니다 앞서 스칼라에 오신 것을 환영합니다 바로 환영받은 같은 클래스의 그리고 다시 연설을하겠습니다 type–그리고 여기에 master를 입력하겠습니다 9는 배포 모드를 지정하여 배포 모드를 지정합니다

변이가 여기에 실을 좋아하고 항아리의 일부를 가져옵니다 파일 우리는 스파크를 성공적으로 만들었습니다 처음부터이 환영 세계의 소스 코드를 보았습니다 Spa의 세션이므로 작업을 제출 한 후 마지막으로이를 생성했습니다 응용 프로그램 오른쪽 그래서 이것은 우리가 불꽃 응용 프로그램을 만들 수있는 방법입니다 세션을 마치고 참석해 주셔서 감사합니다

Hadoop Projects | Big Data Real Time Project | Hadoop Tutorial for Beginners | Intellipaat

안녕하세요, Intellipaat의이 세션에 오신 것을 환영합니다 따라서 하둡은 확장 성이 뛰어납니다

조직 운영에 도움이됩니다 수천 개의 노드를 포함 할 수있는 수많은 노드의 애플리케이션 테라 바이트 단위의 데이터 및 확장 가능한 Hadoop 특성을 이해하는 가장 좋은 방법 실습 프로젝트를 수행하는 것입니다 오늘은이 세션에 와서 다중 노드 클러스터를 구현하는 방법을 배우는 Hadoop 프로젝트 그래서 전에 계속해서 수업을 시작하고 채널을 구독하면 다음 동영상에 대한 알림 또한 수업이 끝나면 오늘 세션에서 배운 내용을 요약하는 퀴즈가 있습니다 그러니 내려 놔 당신이 정답을 알고 있는지에 대한 답, 그리고 귀하의 문의에 도움을 드리고자합니다 많은 지연없이 시작합시다

수업과 함께 이제 이것을 위해 나는 서버를 구입할 것이다 웨스트 코스트의 CentOS 63 나는 무언가를 원했다 괜찮은 RAM이 있습니다

따라서 4GB의 RAM이 필요합니다 내 생각 엔 공정한 8GB로 이동하면 너무 높습니다 그래서 나는 4GB가 내가 될 것이라고 생각합니다 보고

기본 보안 그룹으로 이동하겠습니다 이것이 Ravi라는 이름의 핵심 가치 쌍이며 은행이라고 말합니다 그래서 첫 번째 기계가 시작되었습니다 이 기계가 시작되는 동안 다른 기계를 사 드리겠습니다 세 대의 기계가 필요합니다

그건 그렇고, 모두에게 PDF를 열어달라고 부탁하고 있습니다 운동 번호 7 계속해 그런 다음 중형 기계를 원한다고 말하고 은행을 말합니다 기계 번호 2 그리고 나서 세 번째 머신을 다시 사러 갈 것입니다

다시 오리건 CentOS입니다 문제 없다 세 대의 기계가 모두 성공적으로 구매되었습니다 새로 고침하면 그들 중 몇 명은 시작했다 그래서 그들 중 하나가 시작되었습니다

나는 그 이름 노드의 이름을 바꾸겠습니다 우리는 곧 우리의 다른 기계도 시작되었습니다 여기 요 이것은 기계 번호 2입니다 저는 이것을 데이터 노드 1이라고 부릅니다 세 번째 머신이 시작되고 내 데이터 노드 2입니다

이것들은 모두 세 대의 기계입니다 잘가요 이제 한가지 간단한 질문입니다 이제 여러분은 컴퓨터를 잘 운영하고 있습니다 모두 훌륭합니다 이제 우리를위한 시간입니다 연결

이제 네임 노드에 연결하고 싶습니다 이름 노드 씨에게 연결하고 싶습니다 당신 그래서 나는 연결이라고 말합니다 내가하는 일은 내 컴퓨터에 연결할 명령을 직접 가져 오는 것입니다 복사라고 말하고 터미널에서 열어서 잇다

알다시피, 첫 아마존 머신에 로그인했습니다 그래서 나는 이미이 컴퓨터에서 루트로 로그인했습니다 이제 두 번째 컴퓨터에 연결합니다 나는 나의 연결을 도와주세요 두 번째 기계 그래서 나는 새로운 쉘 창을 열라고 말합니다

이제 연결 도와주세요 네 라고 말하다 그래서 나는 두 번째 기계에 있습니다 이제 세 번째 머신에 연결해 봅시다 나는 연결하고 명령을 받는다 이리 보자 괜찮아 그래서 저는 네임 노드 데이터 노드 1과 데이터 노드 2에 연결되어 있습니다

이제 당신이 보는 것은 이것이 내 네임 노드이고, 이것은 내 데이터 노드 2입니다 내 데이터 노드 1을 보지 못했습니다 이제 세 대의 컴퓨터가 있는데 이것이 내 이름 노드입니다 빨리 info : 당신이 엔드-투-엔드 인증 과정에 관심이 있다면 Hadoop, Intellipaat는 Big Data Hadoop 인증 과정을 제공합니다 MapReduce, Hive, Pig 등 빅 데이터의 모든 주요 개념을 배우게됩니다

Sqoop Oozie 및 Flume 따라서이 교육을 통해 스킬 셋을 구축하고 산업 준비 많은 지체없이 수업을 진행해 봅시다 모든 것이 업로드되었으므로 여러분들 여기서 모든 문제의 IP 주소를 기억해야 할 문제가 하나 있습니다 좋은 생각이 아닌, 전혀 좋은 생각이 아닌 기계를 더 의미있는 이름

제가하는 것은 이것이 나의 IP 주소입니다 vi / etc / sysconfig / network라고 말하고 호스트 이름을 namenode로 설정하고 싶습니다 그래서 저는 호스트 이름이 namenode라고 말합니다 그런 다음 vi / etc / hosts라고 말합니다 누군가 IP 주소에 대해 이야기 할 때마다이를 namenode로 변환하십시오

그래서 내 네임 노드가 끝났습니다 데이터 노드가 무엇인지 찾아야합니다 1 그리고 데이터 노드 2는 무엇입니까? 이것은 내 데이터 노드 1입니다 그래서 이것은 내 데이터 노드 1이므로 vi / etc / sysconfig / network라고 말합니다 이것은 내 데이터 노드 1입니다 그리고 내가 구성이라고 말한다 vi / etc / hosts라고 말하십시오

데이터 노드 1 이제 기계 번호로갑니다 이것은 내 데이터 노드 2입니다 vi / etc / sysconfig라고 말하고 컴퓨터 이름을 지정하고 싶다고 말합니다 네트워크로 데이터 노드 2가 모두 좋으므로 데이터 노드 1과 데이터 노드 2로 완료되었습니다 하나와 나는 내 데이터로 끝났습니다

이 기계의 ifconfig를 취할 필요가 없습니다 이걸 가져가 VI 지저분한 데이터는 이제 기본적으로 모든 호스트 이름을 변경 한 마술을 보자 내가 할 세 가지는 모두 지금 재부팅 할 것입니다 이제 모두 다시 시작하겠습니다 이 후 신호에 대한 혼동이 없으므로 모든 것을 종료했습니다 그들 모두를 다시 시작했습니다

예 가능합니다 퍼티를 사용하는 대신 브라우저 클라이언트입니다 브라우저 클라이언트를 사용할 수 있습니다 아마존은 세 대의 기계가 모두 시작 되었으니 여기서 흥미로운 것은 좋아 하나 하나 하나 가자 이것이 내가 말하는 첫 번째 기계이다 이걸 너에게 연결 시켜줘 여기에서 무엇을 볼 수 있습니까? 이름 노드 I 여기서도 같은 당신 이 사람은 데이터 노드 하나에 오신 것을 환영합니다 이 사람은 데이터 노드 번호 2에 오신 것을 환영합니다

기본적으로 IP 주소를 기억하는 데 어려움이 있습니다 씨 이름 노드 올바른 사람이므로 빠른 정보 Hadoop에서 엔드 투 엔드 인증 과정에 관심이있는 경우 인텔 PI는 Big Data Hadoop 인증 과정을 제공합니다 MapReduce 하이브 페그 스 coop 후지 및 플루와 같은 빅 데이터의 주요 개념 이 교육을 통해 스킬 셋을 구축하고 산업을 준비 할 수 있습니다 나가면 도둑질을 할 수 있습니다

데이터 노드 하나 우리 그들의 IP 또는 무언가를 다시 기억할 필요가 없으며 이것은 mr입니다 데이터 노드 두 번째는 이제 잠시 기다렸다가 모두에게 지금 확인하도록 요청하겠습니다 우리가 할 단계를 말해 줄게 우리는 빈 기계를 처음 구입했습니다 하지만 절대적으로 아무것도 없으므로 여기에 Java 설치 단계가 있습니다 그룹과이란 운동 그래서이 맑은 날은 우리가 기계를 구입 참조 절대로 비워 두지 말고 우리가 옳은 일을 지금은 내 단계 하나는 가상 머신에 java를 설치하는 것입니다 운영 체제 만 설치되어 있고이 레코딩 기능을 수행하는 머신 당신은 당신이 무엇을 알고 있기 때문에 당신은 앞서 직장에서 기본적으로 알고 그라운드 제로에서 정확히 수행하십시오

빈 머신이므로 먼저 자바를 설치합니다 우리는 하둡을 설치합니다 그리고 우리는 설치합니다 다중 노드 클러스터를 설정합니다 이것들은 간단한 3 단계입니다 시작 그래서 내 단계 하나는 Java를 설치하는 곳입니다 첫 번째 명령은 yum이 설치된 것입니다 파란색 게이트가 기본적으로 설치된 yum을 얻습니다

Linux 상자에서 인터넷에서 물건을 다운로드 할 수있는 유틸리티입니다 명령 줄을 통해 당신 그래서 m 설치 W 게이트 당신 그래서 나는 리눅스 상자에서 패키지를 설치하는 것만 아무것도하지 않습니다 그렇지 않으면 로켓 과학이 없다 그래서 w 게이트가 설치되었습니다 당신 지금 당신 Java를 다운로드 중이므로 Java를 다운로드하는 것만으로는 아무것도하지 않습니다 인터넷에서 인터넷에서 Java를 다운로드하는 것 외에는 아무것도 없습니다 Java는 인터넷에서 아무것도 다운로드하지 않습니다

당신 이제 Java를 설치할 때 우리에게 유용하지 않은 파일은 존재하지 않으므로 Java가 불평하지만 그 경고를 무시하고 계속해야합니다 당신이 말하는 설치 당신 다시 Java를 설치하는 것 외에는 아무것도하지 않습니다 자바는 설치 이것은 지금 끝났고 나는 너희들을 위해 명령을 붙이고있다 당신 좋아 내 발걸음 하나 당신 Java를 다운로드하고 설치하는 첫 번째 단계는 100 % 완료된 것입니다 당신 당신 1 단계가 완료되었습니다 2 단계에 대해 이야기하겠습니다 당신 Hadoop 용 다운로드를 설정하겠습니다

우리는 저장소에 클라우드를 설정하고 있습니다 당신 이제 클라우드 오류 저장소를 설치하고 있습니다 바로 지금 하둡을 설치하면 당신 당신 이제 저장소에 클라우드를 설정 한 가장 중요한 단계가되었습니다 이제 우리는 듀프를 설치합니다 당신 명령을 실행하면 모든 것이 자동으로 진행되므로 명령과 당신은 완료됩니다 당신 하둡은 매트릭스 영화처럼 보이게 설치됩니다 위아래로 위아래로 위아래로 설치되어 있습니다 함께 기계 당신 그래서 이것은 Amazon US 서버에 있기 때문에 여전히 시간이 덜 걸리는 이유입니다

일반적으로 인도 에서이 작업을 수행하면 둘러보기가 필요할 수 있습니다 기계는 이미 당신을 위해 실속을 열었습니다 하둡이 100 % 설치되었습니다 당신은 지금 가장 두 가지가 있습니다 중요한 질문 당신 그래서 수정 당신 명령 프롬프트에서 매우 간단한 유형 작업을 수행하면 Java 여부를 알 수 있습니다 에 설치 그래서 이것은 Java가 설치되어 있지 않다면 명령이 형성되지 않았다고 말합니다 올바른 것은 Java가 있다는 것을 의미하므로 이것이 괜찮습니다 Java가 설치되어 있는지 어떻게 확인합니까? 당신은 그냥 가고 왜 그리고 왜이 문을 여는가 이제 똑같아 이제 다음 질문으로 넘어 갑시다 예, Java 버전을 말하는 다른 방법이 있습니다

죄송합니다 당신 어떤 Java 버전이 설치되어 있는지 알려줍니다 자, 이제 Java가 어떻게 설정되었는지 확인하는 방법에 대한 귀하의 질문에 대답합니다 다음 질문에 대해 이야기합시다 당신 아니요 설치 한 후에는 이미 설정되어 있지 않아도됩니다 Java가 다음에 설치되었는지 확인하는 방법입니다 중요한 질문은 저장소에 정확히 무엇이 흐려져 있는지 간략하게 소개하겠습니다

당신에 대한 간단한 소개 여기에 필요하지 않습니다 간단히 넣어 봅시다 창문 당신 지금 동의하고 유닉스 또는 리눅스 세계 당신은 대부분 당신 간단히 말해 디렉토리 또는 저장소 서비스에 지나지 않습니다 위치 또는 주소 서비스 위치 또는 확실 나는 이것을 설명 할 것이다 예, Windows World에서는 exe 또는 MSI 인 것을 다운로드하고 두 번 클릭하면 모든 것이 Linux 세계에서 가장 적게 설치됩니다 커맨드 라인에서 물건을 설치하십시오 나는 그것에 대해 자세히 설명하지 않습니다 정확히 작동하지만 운영 체제를 주문할 때의 결과입니다

운영 체제 가이 특정 소프트웨어를 설치하고 싶습니다 리포지토리 목록 및이 소프트웨어를 사용할 수 있는지 확인 저장소에는 기본적으로이 설치 프로그램의 URL 또는 주소가 있습니다 인터넷에서 찾을 수 있으며 실제로 얌이라고 말할 때 그녀를 설치하면 저장소로 이동하고 누군가를 알고 있다고 말했습니까? 하둡이라고 부르며 일반적으로 우리가하지 않는다고 대답 할 수는 없습니다 누가 Sidhu를 알지 만 저장소에 클라우드를 설정하면 clowder Hadoop이 어디에 있는지 알고 있으므로 운영 체제에서 기본적으로 다운로드하여 설치하므로 커맨드 라인에서 컨트롤이 리포지토리 위치 및 리포지토리에 이들이 있는지 여부를 알려줍니다 소프트웨어 여부 알았어 yippee 2 단계가 완료되었습니다 모든 것이 명확 해졌습니다 감각 하둡인지 확인하려는 경우 rpm QL Hadoop이라고 말하면됩니다

오 포인트 20 단점 의사 이것은 Hadoop이 설치되었으며 이것이 구성임을 나타냅니다 방의 지금 이것은 이미 운동 번호 2 단계 번호 2에 있습니다 Hadoop이 설치되어 있는지 확인하는 방법입니다 그래서 그것은 이미 존재하는 종류입니다 맞아 엔드 투 엔드 인증 과정에 관심이 있다면 Hadoop에서 Intel PI는 Big Data Hadoop 인증 과정을 제공합니다

MapReduce 하이브 페그 스 coop과 같은 빅 데이터의 모든 주요 개념을 배웁니다 이 훈련을 통해이 기술을 익히고 실력을 쌓을 수 있습니다 너무 늦게 빠져 나오면 준비를하세요 중요한 논리적 단계와 지금 우리가 3 단계로 가면 다중 노드 클러스터를 설정하려면 PDF를 열어 두어야합니다 운동 7 괜찮아 이제 Hadoop을 설치하기 위해 설정 부분을 시작할 차례입니다

우리는 모두 설정되었습니다 당신 PDF를 열고 7 번 연습으로 가십시오 저는 2 단계에 관한 것이므로 Hadoop을 설치 했으므로 시작하지 않았으므로 서비스를 중지 할 필요가 없습니다 2 단계로 가서 몇 가지를 설명하고 싶습니다 좋아 모두가 2 단계에 있다고 생각합니다 당신 그러니 대안이 무엇인지 이해하도록 해주세요 당신이 보는 것은 모든 소프트웨어에는 두 가지가 있지만 우리에게는 많은 것이 있지만 코드가 있으며 코드는 기본적으로 실행되거나 특정 지점을 가리 킵니다 침략 이제 우리는 일반적으로 모든 소프트웨어에 약간의 코드가 있으며 특정 구성에 동의 함 자 이제이 말은 코드가 있고 특정 구성을 따르는 소프트웨어 대안 프레임 워크는 여러 가지를 가질 수 있습니다 특정 지점에서 구성을 지정할 수 있습니다 다른 아무것도 아저씨 대안 프레임 워크는 기본적으로 그것입니다 여러 구성을 가질 수 있으며 기본적으로 하나를 가리킬 수 있습니다

그들 중 내가 말하는 것은 구성 번호 1을 매우 잘 가질 수 있다는 것입니다 구성 번호 2를 아주 잘 가질 수 있습니다 괜찮아 구성 내 구성 이제 내가 할 수있는 일을 할 수 있습니다 내가 할 수있는 일을 할 수 있습니다 내 마음이 바뀌면 이걸 가리키고 그냥 놀아도 돼 대체 슬램을 통해 가능합니다

이제 이걸 보여 드리고 이걸로 뭘 만들 었는지 말해줘 이것을주의 깊게보고 이해하고있는 것이 무엇인지 말해주십시오 당신 이것으로 무엇을 만들 수 있는지 알려주세요 이것은 하둡에 두 가지가 있다는 것을 알려줍니다 이 시스템의 구성은이 시스템에서 현재 두 가지 구성이 있습니다 이 순간은 sudo dot mr을 변환합니다 바로 지금 Hadoop이 Cie Hadoop conf dot을 가리키고 있습니다

의사 점 mr 두 구성 중 하나가 비어 있으면 다른 하나는 하둡은 현재 가장 우선 순위가 높기 때문에 Hadoop 구성에 대한 현재 최고의 버전은 et Cie hadouken sudo mr입니다 다른 모든 것이 단지 개념이라는 개념을 이해하게하는 것이 합리적입니다 리눅스 명령을 실행하면 일단 그것이 케이크 워크라는 것을 아는 것은 중요합니다 개념을 이해하면 개념 개념에 집중할 수 있습니다 여러 구성 및 대안 프레임 워크 기능으로 실행할 수 있습니다 그들을 가질 수 있고 어떤 구성을 가리킬 수 있습니다 우선 순위는 귀하가 원하는 것이 우선 순위라는 귀하의 희망에 근거합니다

1 분 안에 알 수 있습니다 1 분 안에 볼 수 있습니다 내가 지금하는 일은 빈 구성 템플릿을 사용하는 것입니다 내가 말하는 것은 sudo CP-R이라고합시다 et Cie Hadoop Conn의 도트 MT 쉼표 도트 MT는 템플릿 아무것도 복사하지 않습니다

et Cie Hadoop은 count dot이 그것을 배포한다고 가정 해 봅시다 이 시점에서 등고선이라고 불리는 새로운 구성을 만들고 있습니다 분포 된 모멘트 윤곽이 비어 있습니다 스 쿼크 도트가 없다고 말한 템플릿 이제 배포되었습니다 내가하고있는 일과 당신은 모든 것을 깨달을 것입니다 당신 지금 당신은 무엇을보고 말해 당신 이제 새로운 구성을 만들었습니다

이 순간 현재 비어있는 상태이며 우선 순위를 설정했습니다 99이며 가장 높은 우선 순위를 갖기 때문에 구성은 하둡과 함께하는 것은 분명하다 굉장히 이제 우리는 설정을 원하기 때문에 세 가지 모두에서 그렇게 해 봅시다 우리가하는 일을 최우선으로하는 분산 구성 당신 그때 당신 당신이 보는 모든 것이 잘 진행되었는지 확인하기 위해 당신은 그것을 참조 우리의 구성이 가장 우선 순위가 높습니다 그래서 지금 우리는 이제 Hadoop이 우리의 선택의 구성이지만 우리의 선택의 구성은 비어 있습니다 우리는 이제 구성을 채울 것이지만 그 전에는 그 전에 가장 많이 그 전에 중요한 점은 트위스터 클러스터가 기계를 의미한다는 것을 알고 있다는 것입니다 서로 대화 할 수 있어야하고 서로 알고 있어야하지만 서로 알고 핑 데이터 노드를 말하는지 보자 이 녀석은 내가 오래된 것을 데이트조차 모른다고 말해 IP로 서로를 만나지 만 이름으로 서로를 알지 못하는 네트워크 여성 문제는 먼저 모든 사람이 서로 이름으로 알 수 있도록하겠습니다

여기서 멈추고 말하고 싶어 이 시점에서 우리 그룹은 우리가 선택한 설정을 가리키고 있습니다 그래 지금까지의 설정 선택은 비어있다 모든 좋은 수정 바로 그거죠 너무 사랑 설정이 올 바르면 이제 기계가 각각을 알고 있는지 확인하십시오 다른 이름으로 간단히 우리가 할 일을 넣는 것입니다 이것은 무엇입니까 가서 VI ATC 호스트라고 데이터 노드 1에 대해 이야기 할 때마다 이 IP 데이터 노드에 대해 이야기 할 때 마다이 IP로 번역하십시오 이제 모두가 서로를 알기 때문에 이제는 모두를 알고 있지만 먼저 그들은 서로 핑 할 수 있습니다 참조 당신 그래서 나는 분홍색이라고 이제는 그것이 누구인지 번역 할 수는 있지만 여전히 핑을 할 수는 없습니다

수정 이제 데이터 노드 하나가 나는이 IP에 대해 이야기하고 있지만 괜찮습니다 서로 대화하도록하겠습니다 핑에 대해 기본적으로 네트워크를 통해이 세 가지 값을 먼저 복사 해 봅시다 그 그래서 나는 TV i ET cie 호스트를 저장하러 간다 당신 알았어 방화벽이 작동하지 않기 때문에 여전히 서로 핑하지 않는 경우 당신이 볼 경우 불이 그들을 허용 할 수 있도록하십시오 그래서 그들을 허용하자 세 대의 컴퓨터를 모두 볼 때 보안 그룹에 속하는 것을 보자 그들은 2 천 12 7 9 인 기본값을 따릅니다 보안 그룹이므로 보안 그룹을 보여 드리겠습니다 그래서 그들 모두는 내가 말하는 방화벽 규칙에 속합니다

모든 ICMP 허용 모든 ICMP 핑은 ICMP 프로토콜에서 작동합니다 방화벽 규칙은 하둡과 아무 관련이 없습니다 모든 ICMP 통신이 활성화되어야합니다 네트워킹은 이제 데이터 노드 1을 Ping 할 수 있습니까? 지금은 MP를보고 있기 때문에 꼭 핑할 수 있습니다 데이터 노드 2는 환상적이라고 말합니다

핑크 이름 노드는 할 수 있습니다 그 자신의 이름 노드 내 철자가 잘못되었습니다 그것은 100 %라고 말할 수 있습니다 이름 참고 그것은 내가 할 수 있는지 확인 너 너 지금이 순간부터 모든 사람들이 다른 좋아, PDF를 볼 수 있고 나는 당신이 볼 PDF를 따르고 있습니다 단계 파일이 100 % 완료되었습니다 이제 모든 것이 문서화되어 있고 운동 할 때까지 완료된 것을 보게되면 일곱 번째 단계 다섯 번째는 100 %입니다 운동 7 단계 5는 100 %입니다 알았어 이제 내 컴퓨터가 내 클러스터와 대화하고 있거나 전체 클러스터가 지금까지 올바른 구성을 가리키고 있습니다

내 구성은 비어 있지만 괜찮습니다 우리는 모두 내 구성이 비어 있다는 것에 동의합니다 구성 구성이 비어 있음에 동의 모두 나와 동기화 된 상태입니다 빈 템플릿을 가져 왔습니다 구성 구성에서 아무것도하지 않았습니다

이제 구성을 변경할 차례입니다 당신이 볼 경우 그래서 나는 당신에게 모든 것을 설명합니다 Hadoop에 일반적으로 모든 구성 요소가있는 경우 구성에 대해 걱정하지 않아도됩니다 XML의 충돌로 인해 EPC 수정하자 그 갈등 그래서 당신이 볼 경우 당신 하둡에는 3 가지 가장 중요한 구성 HDFS 코어 사이트가 있으며 하나는 지금지도를 읽는 것입니다 모든 구성이 준비되면 확실히 진행할 수 있습니다 이 시점에서 클러스터가 윤곽을 가리키고있는 순간 분산되었지만 비어 있으므로 이제 일단 구성을 채 웁니다

다음 구성으로 넘어가겠습니다 이제 모든 구성을 입력 할 수 있습니다 구성은 하나씩이지만 지금은 XML로 구성되어 있으며 직접 복사 한 다음 각 구성에 대해 설명하겠습니다 당신 그래서 저는 VI라고 말합니다 물론 지금은 XML을 가르쳤습니다 당신 내가 참조 당신 이 특정 구성에서 내가 말하는 것은 구성은 FS 기본 이름입니다

구성은이 클러스터의 이름 노드이며이 클러스터의 마스터는 우리입니다 이름 노드라는 컴퓨터는 포트 80 20에서 작동합니다 당신 여기서 똑같은 일을하겠습니다 관리자가 명명 된 메모 내가 말하는 것은 당신의 이름 노드이거나 당신의 관리자는 이것이 이름 노드입니다 기계와 그것이 마스터를 가리키는 방법입니다 CD 등 '또는 누가 마약 사기 에로틱 당신 지금까지 우리가 한 일은 마스터가 설정해야 할 필요가 있다고 말했습니다 그러나 나는 두 남자에게 그가 두목이라고 말했다

그 밖의 아무것도 매니저 자 이제 다음 설정은 VI HDFS 사이드 도트 XML입니다 의 위에 기존 설정을 제거하십시오 내가 할 일은 내가 당신을 말할 것입니다 hdfs 눈 보호 당신 좋아, 모두가이 XML 파일을 필요로한다고 확신한다 세션 메모와 함께 오늘 전달하십시오 너 걱정 해 그들은 모두 당신입니다 그래서 당신이 내가보고있는 세 가지 속성이있는 경우 HDFS가 Linux 파일 시스템 위에서 작동하는 것을 볼 수 있다면 HDFS는 Linux 파일 시스템 위에서 작동합니다

그래서 일어나고있는 것은 이름 노드가 데이터를 저장할 것이라고 말하고 있습니다 디스크에 쓸 때 메타 데이터는 홈 디스크라는 폴더에 저장됩니다 하나의 DF snn과 홈 디스크 하나의 DF snn은 실제와 다를 수 있습니다 하드 디스크의 볼륨 또는 아마도 하드 디스크 자체에 데이터 노드가 데이터 블록을 쓸 것이라고 말합니다 당신이에 관심이 있다면 바로 사람에 그래서 빠른 정보 하둡의 엔드 투 엔드 인증 과정에서 인텔 PI는 Big을 제공합니다

Data Hadoop 인증 과정에서는 빅 데이터의 모든 주요 개념을 학습합니다 MapReduce 하이브 큰 국자 Busey 및 독감과 같은이 훈련은 스킬 셋을 구축하고 많은 지연없이 업계 준비 하나의 DFS 데이터 노드 홈 디스크를 DFS 데이터 노드로 디스크로 분류하는 클래스로 넘어 갑시다 세 번째로 포트 번호 5 0 0에서 이름 노드에 액세스하고 싶습니다 7 0이 세 가지는 내가 넣은 구성입니다 앞으로 -여기도 마찬가지 당신 좋아, 이제 내가 돌봐야 할 마지막 파일은 Map Reduce입니다 이들은 가장 중요한 세 파일입니다 hdfs site의 매개 변수는 괜찮으므로 첫 번째 매개 변수는 DFS name dir입니다 내 이름 노드가 하드 디스크의 데이터를 정확히 쓸 위치를 의미합니다

C 이름 노드 권한이 항상 해당 권한과 RAM에서 충족 된 후 플러시합니다 이제 플러시합니다 디스크로 플러시합니다 포인트 넘버 1은 괜찮고 포인트 넘버 2는 데이터 노드가 디스크의 블록은 데이터 노드 참조 HDFS는 Linux 상자 위에서 작동합니다 어떤 폴더가 될지에만 Linux 드라이브에 무언가를 저장합니다

데이터 노드 홈 디스크 1 DF sdn 홈 디스크 2 DF SD N에 할당 된 이름 노드에 액세스하기위한 웹 URL 이것은 내 이름 노드입니다 왜 여기에 데이터 디렉토리가 있고 이것이 내 데이터 노드입니까? 여기서 이름 노드를 실행하지 않기 때문에 여기에 이름 디렉토리가 있습니다 요점은 하둡에 대해 이야기 할 때 실제로 노드 컴퓨터 50 대와 이상 할 때 15 개 이상 기계마다 다른 종류의 설정을 원하지 않을 것입니다 그 표준을 유지하기 위해 모든 구성을 넣습니다 어디서나 어떤 악마 또는 어떤 Java 프로세스를 시작할지 선택하십시오 따라서 데이터 노드에서 이름 노드 데이터 디렉토리 설정이 필요하지 않습니다

이름 노드 디렉토리 설정은 필요하지 않지만 관리자가 쉽게 사용할 수 있다는 표준 관점 잠시만 요 이 디스크 하나는 디스크 두 개입니다 구성이 완료된 후 나에 의해 작성되었습니다 다음 단계 이제 HDFS 측면이 완료되었습니다 HDFS 사이트가 완료되었습니다 이제 이야기하겠습니다

우리는 기본적으로 MapReduce 사이트를 할 것입니다 구성은 그지도 속도를하자 그들은 내가지도 할 수 있다고 언급 VI라고합니까? 매리트 사이트 닷 XML 우리는 이것을 만들기 때문에 전체 파일을 붙여 넣어야합니다 오늘 새로운 것으로 이 최고 일곱 다섯 여섯 일곱 다섯 당신 그냥 모든 것을 복사하면 내가 말하는 것은 내가 이것을 말해 줄게 맛있어 냅킨 수정 노리스 당신 모든 좋은 지금 무엇을 이해하자 자 이제 다음 중요한 부분은 정확히지도 읽기 디렉토리에있는 것입니다 당신이지도를 읽는 쪽을 보면지도가 암송합니다 추적기 작업 추적기가 이름 메모라고하는 시스템에서 실행 중입니다 그것은 포트 감소에서 포트 21 21 초에서 실행됩니다 디스크 하나의 맵에서 로컬 세 번째를 읽는 중개 데이터 기본적으로 프로그램을 실행할 때 맵 매퍼의 루트 디렉토리입니다

사용자 교육이라고 가정 해 봅시다 현재 무엇입니까? 디렉토리 그것은 슬래시 사용자 사용자 이름이므로 귀하가하는 일을하고 있습니다 콜 맵 감소 이 구성에서이 세 가지 구성이 준비되면 이제 디렉토리를 만들겠다고 약속했습니다 그 이것들은 로컬 디렉토리를 참조하십시오 MapReduce는 데이터를 어딘가에 저장합니다를 참조하십시오 로컬 디렉토리 준비 루트 디렉토리 인 처리 중 중간 정도를 정확히 원하는 특정 작업을 실행할 때입니다 스테이징에 저장할 데이터는 스테이징 내의 슬래시 사용자 디렉토리에 있습니다

예배 규칙서 이것들은 MapReduce 특정 디렉토리이며 중간 데이터 둘째 작업에 대한 일부 정보를 저장합니다 첫 번째 위치는 확실히 로컬 디렉토리 인 HDFS는 아니지만 두 번째 위치입니다 하나는 HDFS이므로 살펴보면 따라서 두 번째 디렉토리 슬래시 사용자는 이제 로컬 디렉토리 HDFS 디렉토리입니다 첫 번째는 로컬 디렉토리이고 두 번째는 HDFS 디렉토리입니다 이제 우리가 커밋 한 디렉토리를 만들 차례입니다 내가 가기 전에 모든 권리 스테이징 con 디렉토리 Sivan a MapReduce 작업 실행의 사용법을 설명 할 수 있습니까? 알겠습니다 중간 처리 데이터가 있습니다

처리하는 동안 중간 데이터를 쓰는 위치 lib HDFS가 맵 읽기 메소드 스테이징 디렉토리를 캐시하는 위치에 작성합니다 모든 작업이 사용자 이름으로 저장된 모든 작업을 실행 한 내역을 원합니다 당신이 말하는 것은 HDFS 디렉토리 내부에 스테이징 사용자 디렉토리의 특정 데이터 기본적으로 모든 작업 기록은 특정 작업에 저장됩니다 중간 처리로 기본적으로 하나만 말해줘 당신 이제 우리는 특정 디렉토리를 만들었습니다 우리가 말하는 것은 의사라고합니다 mkdir 차 이 하나 DFS 이것도 이 죄수 데이터 노드 당신은 디스크 1 빨간 알았어 디렉토리가 만들어 지자 기계도 당신 여기에 같은 것이 있으므로 디렉토리가 생성됩니다

당신 이제 디렉토리가 만들어지고이 디렉토리는 자체 데이터를 저장하는 HDFS는 괜찮으므로 HDFS에 권한을 부여해야합니다 이 디렉토리에서 MapReduce를 사용하는 것이 좋습니다 이제 목표는 이 사람들은 우리가 sudo CH를 말합니다 나는 우리에게 전화 hdfs 알루 모든 디스크 하나 당신 그때 나는 본다 지도 요율 디렉토리의 경우 소유자는지도 요율이어야합니다 당신 모든 완료된 소유권은 이제 모든 사람에게 제공됩니다 내가하고있는 일은 필요한 디렉토리를 만드는 것입니다

로켓은 여기에서 끝나지 않습니다 당신 똑같은 것 당신 알았어 여기서 실수 했어 지도를 읽어야합니다 지역 감사합니다 그렇지 않으면 허가 문제가있을 것입니다 당신 좋아 그리고 여기에 같은 것 당신 커밋 된 모든 디렉토리는 독창적입니다 잠깐 여기서 잠깐 멈춰 보자

그리고 모든 질문을 보자 그래서 질문은 당신이 말할 때 mkdir-P 무엇입니까-P는 부모 디렉토리가 존재하지 않습니다 HDFS 허들은 무엇을 의미하므로 괜찮은지 모르겠습니다 따라서 Hadoop을 설치하면 HDFS n MapReduce와 두 명의 사용자가 생성됩니다 Hadoop이라는 하나의 그룹을 생성 하므로이 명령에서 내가 말하려는 것은 이 폴더의 소유권을 HDFS라는 사용자에게 하둡이라는 그룹 이제 커밋 한 모든 디렉토리가 지금 생성됩니다 이제 필요한 모든 디렉토리와 것들 거기서 우리는 이것을해야한다 필요한 시작 성공했습니다

이제 모든 것을 만들었습니다 이제 이름을 시작하겠습니다 데이터 노드 시스템의 이름 노드 시스템 데이터 노드에 노드가 표시됩니다 모든 것이 함께 작동하므로 기본적으로 모든 디렉토리를 만들었습니다 이제 클러스터를 설정할 차례입니다

당신이하는 일은 당신입니다 PDF를 여는 순간 이제 클러스터를 설정하고 이름 노드를 포맷하여 새로운 HDFS의 의사로서 루프 이름 노드 체재 이제 이름 노드가 포맷되었습니다 이름 노드를 강화합니다 나는 이름 노드를 시작합니다 ET c n8 ed 우리의 루프 HDFS 당신 예, 이름 노드에서만 이름 노드의 형식을 지정합니다 하나의 마스터 만 가능하므로 마스터를 형식화합니다 이 힙 크기 명령이 정확히 어떤 힙 크기인지 알려 드리겠습니다

멀티 노드 설정을 수행하는 강의실 설정을 위해 Ram이별로 좋지 않은 가상 머신이므로 여기서는하지 않습니다 램이 가득 찼습니다 힙 크기를 작게 설정하는 것에 대해 걱정할 필요가 없습니다 200 또는 무언가를 말합시다 당신 우리는 습격을 할 것이며 실제로 이름을 쓰고 있다는 사실을 습격하고 있습니다 실제 세계에서는 디스크에 데이터가 올바르게 수정되지 않습니다

내가 두 개의 다른 폴더에 쓰고 있다는 것을 시뮬레이션하기 위해 이미 백업 중 당신 지금 이름 노드와 보조 이름 노드가 시작되어 실행 중인지 확인하십시오 이름 노드가 작동 중임을 알려주는 Java 프로세스 상태 도구가 있습니다 달리고 두 번째 lien 만 노드가 작동하고 실행 중입니다 데이터 노드가 포트 80 20에서 이름 노드와 통신 할 수 있는지 확인하지 않았습니다 지금까지 포트를 열지 않은 포트를 열어야합니다

um install 텔넷과 참조 당신 이제 Nate에게 중요한 이름 노드에 알릴 수 있는지 봅시다 텔넷 이름 노드 22 22가 작동한다고 말합니다 포트 22가 열려 있다는 것을 의미합니다 80/20 포트는 내 것이기 때문에 포트 80/20이 열려 있지 않은 것을 볼 수 있습니다 그게 문제 야 이제 420 80/20이 열리지 않으면 네트워크 담당자와 대화하고 열어야합니다

그것 우리가 할 일은 간단하게 진행하여 지금은 자유롭고 모든 TCP를 열어 봅시다 좋아 너 그래서 당신이한다고 가정 해 봅시다 당신 모든 TCP가 열려 있지만 이미 말 했으므로 이미 존재합니다 당신은 여전히 ​​그것을 할 수 없습니다 때문에 이유는 이것입니다 당신 EF 그립 80/20에서 PSF를 보면 바다에서 무엇 당신이 보는 것은이 특정한 것이이 특정한 항구에서 열렸다는 것입니다 그것과 함께 그것은 이상적으로 제로 제로 제로 제로 였어야합니다 해결 방법 이제이 시스템에 연결할 수 없습니다 당신 우리가 할 일은 지금 당장 방화벽을 비활성화 할 것입니다 다시 이것은 네트워킹 개념이며 우리는 Linux에서 방화벽을 비활성화 할 것입니다 실제 네트워크에서 서로 대화 할 수있는 상자 녀석은 내가 방금 방화벽을 돌봐 줄게 따라서 Isis 서비스 iptables는 저장합니다 중지 chk 구성 IP 테이블 Oh 방금 방화벽을 사용 중지하고 있지만 실제 환경에서는 좋지 않습니다

세상에 당신은 그것을 할 수있는 방법을 찾아야합니다 네트워크 측의 관리자가 포트를 열어줍니다 이건 로켓 과학이 아니야 당신 이제 다 끝났어 내가 텔넷을 할 수 있는지 보자 당신 그래서 못된거야 당신 방화벽을 해제 한 것도 까다 롭습니다 꺼져있어 모든 암호는 멈추지 않았다 당신 그것이 작동하고 법률의 작동하기 때문에 이것은 이상합니다 당신 1 분 미친 작품입니다 당신 방화벽에서 모든 것이 종료되면 놀랍도록 감소하기 때문에 당신 모두가 2012 그룹에 속해 있습니까? 흠 내가 뭘 놓친거야 당신 음 그들은 모두 동일한 보안 그룹에 속합니다 이 하나 당신 당신 좋은 것은 단지 완료된 것을 기억하지 못한다 당신 알았어이 작품은 두 작품을 몰랐어 와우 그렇게 이상하지 않아 당신 이 작동 할 때 내가 뭔가 잘못하고있는 것 같아 아니면 어쨌든 전에 그냥 종료 했어 그래서 이것은 8020 작동합니다 그리고 이것은 작동합니다 그들은 그래서 우리는 모두를 가리키고 있습니다

이것은 다시 네트워킹 개념입니다 그냥 당신의 수직 방화벽 수준에서 수행됩니다 휴식 회사 이름표 및 보조 이름표 이제 데이터 노드를 불러 와서 내가하는 일은 그래서 내가하는 일은 데이터 노드를 시작하는 것입니다 당신은 내가 말하는 EPC 9 ITT Hadoop HDFS 데이터 시작 ET c i9 TD라고 말하고 TL Face 데이터 노드 시작을 수행합니다 나는 동일한 명령을 실행하므로 이제 데이터 노드가 시작되고 그것이 가리키는 곳을 참조하십시오 데이터 알림이 시작된 것을보고 데이터 알림이 시작되었다고 말합니다

당신 그리고 여기에도 데이터 노드가 시작된 것을 볼 수 있습니다 마스터 노드에 표시되면 데이터 노드가 지금 시작 중입니다 나의 이름 노드와 보조 이름 노드가 슬레이브 노드에 있고 데이터 노드가 켜져 있습니다 당신 이 사실을 분명히 알고 있습니까 이제 HDFS가 어떻게 대답하는지 봅시다 하둡 FS 나는 당신에게 음료 sudo를 만들거야 HDFS Hadoop FS mkdir 그래서 temp라는 디렉토리를 만들었습니다

chmod 트리플 트리플 클러스터에서 HDFS에 대해 두 개의 명령을 실행했습니다 LS는 루트의 내용을 보여줍니다 HDFS의 내용을 보여줍니다 이것이 다른 클랜에서 생성되었지만 지금은 기본적으로 분산 파일 시스템으로 일반 HDFS로 반환됩니다 어디에서나 루프 FS LS에 앉을 수 있습니다 다중 노드 커 스터가 지금 실행 중입니다

이제 멀티 노드로 파일을 만들겠습니다 하둡 FS라고합니다 mkdir 사용자 루트 sudo-새로운 HDFS 이제 나는 나 자신에게 경로의 소유권을 부여 이제 세 개의 파일을 거기에 넣었습니다 HDFS에서 3 개의 파일을 넣습니다 세 개의 XML 또는 네 개의 XML을 넣습니다 입력이라는 다른 폴더를 만들어서 좋아, 그래서 당신은 무엇을 봅니까 만들어진 당신과 입력 디렉토리는 이제 Hadoop FS라고 말합니다

내가 말한 3-4 개의 XML 파일을 넣습니다 당신 Linux 파일 시스템에서 Hadoop 파일 시스템으로 파일을 덤프합니다 당신은 여기에 참조 너희들은 파일을 보니 이것 좀 봐 분산 파일 시스템이며 누구나 Hadoop FS가 Hadoop 파일 시스템에서 실행중인 모든 명령의 접두사 당신은에 디렉토리를 만들고 있습니다 분산 파일 시스템은 모든 사람이 모든 것을 볼 수 있음을 의미합니다 분산 파일 시스템 F fs mkdir이 어떻게되는지 보여 드리겠습니다 데이터 노드에서 테스트 디렉토리 F LS는 어떻게합니까? 분산 파일 시스템입니다 이제 HDFS 또는 다중 노드 설정이 100 % 준비되었으며 갈래 이제 가자 Map Reduce 부분으로 가자 다중 노드 클러스터에서 우리는 이미 루트 디렉토리를 템플릿으로 만들었습니다

입력 디렉토리도 만들었습니다 이제 MapReduce를 만들 차례입니다 프로그램을 실행하기위한 시스템 디렉토리 인 디렉토리는 하둡 FS라고 -DFS 루프 XS 그리고 vir에게 훌륭한 시스템 당신 해당 디렉토리의 소유권을 제작자에게 제공합니다 우리는보다 CH 자신의지도 cred 그룹이므로 map red는이 특정 디렉토리를 소유합니다 알든 알덴 이제 MapReduce 프로그램을 실행할 차례입니다 이제 모두 프로그램을 실행하도록 설정되었습니다 하둡 항아리 사용자 라이브 당신 그룹 예 입력 grack book 출력 대기 작업 추적기를 연구하지 않습니까? 작업 추적기 우리는 대조 링크로 직업을 공부하지 않았습니다 PTC와 ID를 시작합시다 나는 희망 물건 마스터에서 작업 추적기를 시작했습니다 여기 보이는 것은 마스터의 GZ 이름 참고 두 번째 이름 노드 작업 추적기입니다

우리는 작업 추적기를 시작합니다 당신 JPS를 수행하면 데이터 노드이며 작업 추적기가 여기에 있습니다 여기서 JPS를 수행하면 치과 검수원이없는 데이터가 표시됩니다 이제 MapReduce도 시작되었습니다 우리가 말하는 것은 희망 jar 사용자 lib Hadoop입니다 20 하둡 예제로 잡은 그립 출력 BF들 그렇습니다 이미 여러분에게 첫 손을 내밀었던 사람들에게 용이하게 이제 작업을 실행하고 있습니다

다중 노드 설정이고이 작업을 실행하고 있습니다 나는 그것이 아무런 문제가 없다고 말하지 않는 것을 희망한다 그것이 무엇인지 보자 사용자 루트는 temp 디렉토리에 내 실수를 쓸 수있는 권한이 없다고 말합니다 내가 temp에서 chmod를하고있을 때 나는해야했다-R 나는 재귀 권한을주지 않았다 당신 당신은 죄송합니다 당신 지금 나는 이것을 시작했다

당신 괜찮은 일을 마치고 여기에서 확인할 수도 있습니다 출력에 따르면 Haru XS는 출력을 얻습니다 이 경우 BFS가있는 4 개의 변수 만 있습니다 의심의 여지가 있거나 질문이 있으면 세션이 끝날 때까지 아래에 의견을 보내 주시면 감사하겠습니다 행복한 고마움

Pig Tutorial | Apache Pig Tutorial | What Is Pig In Hadoop? | Intellipaat

안녕하세요, Intellipaat의 세션에 오신 것을 환영합니다 오늘은 2006 년 Yahoo에서 연구자들을 위해 개발 한 Pig 대용량 데이터에서 MapReduce 작업을 작성하고 실행하는 임시 방법이 있습니다

세트 다중 쿼리를 사용하여 개발 시간을 단축하기 위해 만들어졌습니다 접근 이 세션으로 이동하기 전에 채널을 구독하십시오 앞으로 나올 비디오에 대한 업데이트를 놓치지 않을 것입니다 당신이 얻고 싶다면 Biglip Hadoop Architect로 인증 된 Intellipaat는 이에 대한 과정을 제공합니다

이 설명에 제공된 링크를 통해 이동하십시오 이제 빨리 보자 의제를 한눈에 다음으로 시작하여 Pig를 소개합니다 역사와 돼지와 그 구성 요소가 정확히 무엇인지 논의한 다음 돼지의 특징을 소개함으로써 돼지의 힘에 대해 배우고 장점 돼지의 힘이 확실 해지면 사용자를 배우게됩니다 시나리오와 Pig와 Hive의 비교를 참조하십시오 또한, 당신은 일부를 볼 수 있습니다 Pig에서 복잡한 데이터 유형을 찾은 다음 Pig 및 로컬 모드와 MapReduce 모드에서 Pig를 실행하는 방법을 배우십시오

Pig에서이 스키마를 통해 다양한 연산자를 소개합니다 로드 연산자, 상점 연산자, 관계 연산자 등의 돼지 후 연산자를 소개하면서 단어 수 프로그램을 배우고 데이터를 그룹화 한 다음 날씨 데이터 분석을 수행하게됩니다 그래서, 문제는 돼지와 비슷하며 Hive와 비슷합니다 나는 가지고있다 돼지에 대해 많이 들었으므로 사용되는 곳과 사용하지 않는 곳

첫번째 내가 Pig에 대해 이야기하려고하는 것은 혼란 스럽지만 여전히 Pig와 Hive는 거의 동시에 동일한 문제, 즉 두 도구가 거의 모두 동시에이 두 도구를 사용하면 같은 문제를 해결할 수 있습니다 내가 말할 수있는 거의 같은 문제 Pig를 사용할 수있는 대부분의 경우 하이브도 사용할 수 있습니다 당신이 할 수없는 상황이 있지만 대개 그렇다면 왜 하나의 도구를 발명 했습니까? Pig와 Hive가 거의 같은 경우 왜 두 가지 도구가 있습니까? 대답은 매우 간단합니다

Hive의 사용 사례를 기억하십시오 페이스 북은 엄청난 양을 다루고있었습니다 구조화 된 데이터를 사용하여 대부분의 검색어를 암호화 된 Python을 사용하는 Oracle이 발명의 단계였습니다 하이브 페이스 북은 하둡으로 옮겨야했고 그들은 무엇을해야할지 몰랐습니다 그래서 그들은 실제로 무언가를 발명했습니다 하이브라고 동시에 야후는 같은 문제에 직면했지만 다른 방법 아시다시피 야후는 실제로 발명 된 회사입니다 하둡

그들은 하둡을 발명하지 않았다 그들은 기본적으로 Nutch 프로젝트를 인수했습니다 실제로 하둡의 첫 번째 안정적인 릴리스는 실제로 야후 야후가 하둡을 가지고있을 때 같은 문제가있었습니다 권리 하둡의 데이터로 작업하고 싶습니다

하지만 유일한 방법은 MapReduce입니다 즉, 직원들에게 Java를 배우고 MapReduce 코드를 작성하십시오 어떻게해야합니까? 그러나 야후는 실제로 다른 방식으로 생각했다 야후가 생각한 것은 스크립팅 도구를 만듭니다 사람들이 설치하고 스크립트를 작성하기 만하면 쉽게 배울 수 있습니다 그냥하세요 스크립팅 도구는 스크립트를 일련의 MapReduce 프로그램이 바로 Apache Pig입니다

야후는 나중에 그것을 발명하여 아파치에 기여했으며 최상위 수준이되었습니다 계획 2013 년과 2014 년쯤에 하둡 세계에서 임시직의 약 70 ~ 80 %가 돼지 만 사용하여 달성했습니다 돼지는 실제로 가장 인기가 많습니다 도구

글쎄, 최근에 Spark의 발명 이후 실제로는 Pig 's 오늘날 우리가 보는 것처럼 인기는 없지만 그래도 여전히 돼지는 최고 중 하나입니다 모든 프로그래머와 분석가를위한 선택 그래서 정확히 돼지 야? 우리는 당신에게 배경을 제공하기 위해, 야후에 의해 발명 된 것을 볼 수 있습니다 Hive가 Facebook에 의해 발명되었을 때와 같은 시간 유일한 문제는이 두 회사는 서로 제대로 이야기하지 않았기 때문에 같은 문제를 해결하려고했고 두 도구를 발명하게되었습니다 하나는 돼지입니다 그래서, 기본적으로 큰 데이터 세트를 탐색하는 데 사용되는 스크립팅 언어입니다

지금이야 새로운 언어로, 익숙해 지려면 시간이 좀 걸릴 것입니다 그래서, 학습 돼지의 곡선은 하이브의 곡선보다 높습니다 누군가가 가지고 있다면 다른 방법으로 Hive를 배우기 위해서는 Hive가 SQL을 따르기 때문에 훨씬 쉬울 것입니다 SQL을 알고 있다면 Hive CL을 가져 와서 바로 탐색을 시작할 수 있지만 Pig로 시작하면 Pig에는 Pig Latin이라는 고유 언어가 있습니다 따라서 Pig의 언어는 Pig Latin이라고하며 Pig Latin은 새로운 언어이므로 구문, 사용 방법은 모두 새로운 것입니다

익숙해 지려면 시간이 좀 걸립니다 돼지와 함께라면 괜찮습니다 방법을 알아낼 수 있도록 도와 드리겠습니다 Pig를 배우고 그 작업을하는 방법을 배우십시오 실제로 큰 문제는 아닙니다 좋아, 빠른 정보 : 빅 데이터 하둡으로 인증 받고 싶다면 건축가 인 Intellipaat는 Big Data Hadoop에 대한 전체 과정을 제공합니다 모든 주요 구성 요소 및 전문가가 사용하는 도구

부디 자세한 내용은 설명에 언급 된 링크를 참조하십시오 이제합시다 세션으로 돌아갑니다 따라서 Pig의 구성 요소 : 실제로 Pig는 패키지로 제공됩니다 돼지 엔진이라고 불리는 것을 가지고 있습니다 하둡은 코드를 MapReduce로 변환합니다

언어는 실제로 돼지 라틴어라고합니다 돼지 라틴어는 당신이 배우기로되어있는 당신의 언어입니다 이제 Pig의 장점은 무엇입니까? 사용자가 Hadoop을 조정할 필요가 없습니다 의미에서, 사용자 정의 MapReduce 프로그램을 작성하는 경우 프로그램을 미세 조정해야 할 수도 있지만 Pig는 기본적으로 코드를 최적화합니다 당신 최적화를 켜고 끌 수 있지만 기본적으로 코드 최적화가 켜집니다 돼지에 의해

따라서 Pig는 최적의 MapReduce 코드를 생성합니다 사용자를 Hadoop 인터페이스에서 격리시킵니다 그래서 당신은 필요가 없습니다 실제로 MapReduce 나 Hadoop 등을 배웁니다 당신이 작성해야한다면 약 200 줄의 Java 코드, 10 줄의 Pig에서 같은 것을 쓸 수 있습니다 라틴어와 같은 방법으로 4에서 Java 기반 MapReduce 코드를 개발하려고하면 약 15 분 안에 동일한 작업을 수행 할 수 있습니다

돼지 라틴어 따라서 Java 프로그래머에게 시스템을 엽니 다 이제 우리는 실제로 볼 때, 우리는 Pig 코드를 작성할 때마다 나는 빠르고 일하기 쉽다고 말합니까? 이제는 모든 스크립팅에 공통적 인 방법입니다 언어입니다 파이썬이든 루비이든 쉘 스크립팅이든 모든 스크립팅 언어는 몇 가지 장점을 더 제공합니다

언어는 짧고 달콤합니다 사용할 수있는 많은 내장 함수가 있습니다 예를 들어 Python을 보면 n 개의 패키지와 함수를 사용할 수 있습니다 파이썬 코드는 매우 작을 수 있습니다 스크립팅 언어입니다 마찬가지로 돼지도 스크립팅처럼 행동합니다 언어이지만, 당신의 SQL과는 다릅니다

따라서 SQL은 다소 비슷합니다 질문 따라서 테이블에서 특정 결과를 가져 오려면 하나의 복잡한 쿼리를 작성하고 실행하여 결과를 얻을 수 있지만 여기서는 Pig와 상호 작용하려면 스크립트로 작성해야합니다 다음은 Pig Latin 데이터 흐름입니다 언어 실제로 일반 데이터 유형을 허용하므로 사용할 수 있습니다

long, float, chararray, int 등 모든 것이 가능합니다 돼지 복잡한 데이터 유형도 지원합니다 확장 가능하며 사용자 정의 함수를 지원합니다 Pig에 몇 가지 기능을 추가하고 싶을 때 할 수있는 일은 Java와 같은 것으로 작성하고 Pig 내에서 호출하십시오 사용자 정의 함수

UDF 또는 사용자 정의 함수의 예를 보여 드리겠습니다 따라서 언어로 자신의 함수를 작성하고 Java를 말하고 다음과 같이 패키지 할 수 있습니다 Java 파일을 Pig에 등록하면 Pig가 해당 UDF를 실제로 사용할 수 있습니다 돼지 메타 데이터가 필요하지 않습니다 유형없이 메타 데이터없이 작동 할 수 있습니다 선언 또는 기타 사항이지만 Pig에 메타 데이터를 제공하면 작동합니다

같은 방식으로 하이브는 그렇지 않습니다 내가 하이브와 함께 일한다면 내 메타 스토어 서비스가 실행 중이어야합니다 '좋아요, 테이블을 만들고 메타 데이터를 사용하지 마십시오 ' 그런 식으로 작동하지 않습니다

어느 한 쪽 자체 메타 데이터 서비스 또는 HCatalog와 같은 것을 사용해야하지만 메타 데이터가 필요합니다 Pig의 경우 메타 데이터를 사용할 필요는 없지만 언제 사용할 수 있습니다 가능합니다 Hive와 같은 다른 도구와 메타 데이터를 공유 할 수도 있습니다 HCatalog를 통해

그것은 HDFS의 파일에서 작동합니다 결합, 그룹, 필터 및 정렬과 같은 일반적인 작업 따라서 Pig에는 많은 내장 기능이 있습니다 함수는 결합, 그룹, 필터 및 정렬과 같은 공통 연산자를 제공합니다 그만큼 Pig의 힘은 실제로 이러한 내장 연산자에서 비롯됩니다 조인을하려는 경우와 같은 작업을 수행하려고합니다

조인 연산자를 호출하면 가입 작업을 수행하십시오 그래서 이것은 실제로 돼지가 우리를 도와줍니다 사용 시나리오는 무엇입니까? 하나 웹 로그 처리 일 수 있습니다 나는 실제로 당신에게 돼지 프로그램을 보여줄 것입니다 웹 로그를 받아서 처리합니다 자, Pig는 문자열 연산에 매우 능숙합니다

정규 표현식을 거부합니다 그래서 이것은 매우 될 수 있습니다 웹 로그와 같은 상황에서 유용합니다 따라서 웹 서버가 실행 중이라고 가정하십시오 많은 로그 파일을 생성합니다 이제 로그 파일은 구조화되지 않은

특정 패턴을 따르지 않습니다 전화해도됩니다 반 구조이지만, 비정형 데이터처럼 넣겠습니다 만약 너라면 무언가를 추출하고 싶다면 Pig를 사용할 수 있습니다 돼지는 손질이 잘되고 부분 문자열 연산, 정규 표현식, 데이터 웹 검색 플랫폼 및 대규모 데이터 세트에 대한 임시 쿼리 처리 Hive조차도 대규모 데이터 세트에서 빠른 쿼리에 신속하게 사용할 수 있습니다 큰 데이터 세트를 처리하기위한 알고리즘 프로토 타입

그렇다면 누가 모두 돼지를 사용합니까? Hadoop을 가장 많이 사용하는 Yahoo 인 Pig 직종의 40 % 트위터는 또 다른 잘 알려진 사용자입니다 돼지의 돼지는 일종의 가장 널리 사용되는 생태계 도구 중 하나입니다 우리에게 가능합니다 Pig vs Hive : Pig와 Hive는 정확히 동일하게 보입니다 그렇다면 왜 실제로 차이점이 필요한가? 예, 차이점이 있습니다

이걸 연관시켜야한다면 가장 큰 차이점은 이것으로 시작합니다 첫 번째 요점은 Pig는 단지 클라이언트 측 응용 프로그램이므로 Pig 서버가 없습니다 그러나 Hive는 선택적 Thrift Server와 우리는 Hives Server 1, Hive Server 2 등을 보았습니다 무엇을 사용하지만 Pig를 볼 때 Pig는 단지 클라이언트 측입니다 신청

그래서, 돼지 서버 나 다른 것이 없으며 왜 그렇게됩니까? Pig는 데이터웨어 하우스가 아니며 Hive는 필요한 데이터웨어 하우스입니다 데이터 액세스 및 저장을위한 연결 생성 음, Pig는 가질 필요가 없으며 JDBC / ODBC는 없습니다 연결성 Hive는 연결성을 지원하므로 Beeline 클라이언트 또는 일반 SQL 클라이언트에서 언제든지 연결할 수 있습니다 하이브 테이블 따라서 Hive는 실제로 JDBC 드라이버를 지원하므로 Hive에 직접 연결하여 원하는 작업을 수행하지만 Pig 이후 테이블에서는 작동하지 않으며 스토리지에서는 작동하지 않으며 JDBC / ODBC가 없습니다

연결성 따라서 Pig가 데이터를 가져와야 할 경우 데이터는 Hadoop에 있어야합니다 폴더 또는 어딘가에서 데이터를 읽고 변환하여 저장합니다 하둡으로 돌아갑니다 – 그것이하는 일입니다 안에 테이블이나 물건이 없습니다 돼지

돼지는 실제로 개발자가 주로 사용하며 Hive는 대부분 분석가들이 사용합니다 그것은 당신에게 달려 있습니다 그리고 여기 스키마는 의무가 아닌 여기서 스키마는 필수입니다 Hive 테이블을 만들 때 바로 스키마가 필요합니다

당신은 어떤 종류가 필요합니다 적어도 스키마의 또한 Pig에는 웹 서버가 없습니다 여기서 할 수 있습니다 선택적인 웹 서버, 가능한 Hive를위한 웹 인터페이스가 있습니다 저는 이것이 실제로 명백한 차이점이라고 생각합니다 많이있을 수 있습니다 고려해야 할 몇 가지 사항이 있습니다

실제로 어디 시나리오에 맞는 돼지? Ok guys, quick info : 인증을 받고 싶다면 Intellipaat 빅 데이터 하둡 설계자 모든 주요 데이터를 다루는 빅 데이터 하둡에 대한 전체 과정을 제공합니다 전문가가 사용하는 구성 요소 및 도구 를 통해 가십시오 자세한 내용은 설명에 언급 된 링크를 참조하십시오 이제 다시 돌아 가자 세션이므로 Hadoop 클러스터가 있고 내 후속 데이터베이스가 있다고 가정 해 봅시다 어쩌면 여기에 웹 서버가 있고 여기에 앱 서버가있을 수 있습니다

어쩌면 내가 데이터를 수집하고 있으므로 여기에 특종을 가져올 수 있습니다 내 속편에서 Hadoop으로, 웹 서버에서 내 데이터를 가져올 수 있습니다 아마도 나는 flume 또는 무언가를 사용하여 로그 파일을 가져 와서 모두 얻습니다 여기에서 그리고 여기에서 로그는 몇 가지 로그를 가져오고 있습니다 주로 구조화되고 반 구조화 된 여러 유형의 데이터를 수집합니다

폴더에있는이 모든 데이터 확인 그래서 이것은 하둡에있는 내 폴더이므로 내가하고있는 일은 웹 서버 로그에서 DBMS 시스템의 데이터를 수집하고 있습니다 여러 곳의 데이터웨어 하우스에서 Hadoop의 폴더가 좋습니다 이제 데이터가 있습니다 이 데이터를 안녕으로 보낼 수 있습니까? 그렇습니다하지만 일반적으로 우리가하는 일은 이 폴더에 있으면 Pig를 실행하여 데이터를 읽습니다

여기에 데이터를 변환하고 Hadoop으로 다시 보내십시오 내 데이터 권한 및이 변환 된 데이터는보고를 위해 hi에 의해 액세스됩니다 그래서 돼지는 실제로 데이터로 사용됩니다 공장 운영자 또는 데이터를 정리할 수있는 무언가 웹 서버 로그 또는 원하는 데이터베이스에서 원시 데이터를 가져옵니다 데이터를 정리하여 ETL 직원이 이보다 더 잘 연관시킬 수 있습니다 원치 않는 정보가있을 수 있습니다

쿠키 관련 정보 로봇이 정보를 크롤링하는 등 이 경우 데이터를 높은 위치에 덤프하지 않을 수 있습니다 하이브는 모든 것이 저장되는 최종 목적지이고 보고 도구는 높은 테이블에 직접 연결할 수 있으므로 데이터를 변환하여 데이터를 정리하고 일단 피크가되면 데이터를 정리합니다 데이터를 구조화 한 다음 해당 데이터를 하이브 테이블에 저장할 수 있습니다 돼지가 데이터를 읽고있는 것을 저장하지 않고있는 것을 볼 수 있습니다 또 다른 예는이 센서 데이터입니다

이 날씨에서 데이터를 수집하는 경우 알고있는 날씨 데이터 온도 등의 센서 등 날씨 데이터가 일반적으로 해독하기가 매우 어려운 매우 구체적인 문자열 형식으로 제공되므로 폴더에 날씨 데이터가 있으면 쉽게 데이터를 사용할 수 있습니다 관심있는 정보를 얻는 문자열 조작 그 구조 데이터는 다른 폴더에 저장되므로 하이브가 따라서 돼지는 작업자 또는 데이터 공장 운영자를 청소할 때 사용됩니다 데이터를 구조화하여 하이브에 저장할 수 있도록 이것은 오늘날 그들이 할 수있는 모든 것을 과대 광고를 수행하는 방법 ETL 도구로 작동 할 수도 있지만 그래, 돼지는 일반적으로 하둡 위에서 거래로 간주 될 수 있습니다 돼지가 시스템에 잘 맞아서 돼지를 사용하지 않는 곳 돼지는 순수한 비정형 데이터에 적합하지 않습니다 이러한 경우 오디오 비디오 이미지 등 돼지가 적합하지 않을 수 있습니다 돼지를 가공 할 수있어 구조화 된 측면에서 반 구조화 된 데이터와 다음 요점은 이 도구에 대한 이상한 이름 Pig 아파치의 사람들이 정말 재미 있다는 것을 알고 있습니다

큰 철학이라는 것이 있다는 것을 의미합니다 원하는 경우 Apache의 Apache Pig 철학을 읽을 수 있습니다 그들이 어떻게이 도구에 Pig라는 이름을 주 었는지 아파치가 말하는 것은 우선 모든 동물 돼지는 무엇이든 먹을 수 있습니다 당신의 엉덩이 아파치 원숭이와 같은 방법으로 그들은 또한 모든 유형의 데이터를 먹을 수 있습니다 구조화 된 반 구조화 및 일종의 실행 구조이므로 돼지는 아무 말도하지 않고 동물처럼 두 번째로 먹을 것입니다 요점은 동물 돼지가 쉽게 길들여져 있다는 것을 의미합니다 집안의 돼지 돼지 내 형태의 돼지이므로 돼지는 같은 날이 아파치 서사시는 매우 잘 작동 할 수있는 도구입니다 다른 플랫폼과 아파치도 돼지가 당신과 같은 의미에서 날아갈 것이라고 말합니다 스크립트를 즉석에서 작성할 수 있으므로 이것이 큰 철학이므로 Apache Epics 철학은 Big Eight를 올바르게 본다 돼지는 가축과 돼지가 날아 다니는 큰 곳을 픽셀 철학과 거리가 멀어 돼지 돼지라고 불리는 이유는 실제로 복잡한 데이터 형식이라고 불리는 일반 데이터 형식을 지원합니다

또한 복잡한 데이터 유형을 지원하므로 복잡한 데이터 유형의 의미는 무엇입니까? 그들 중 하나는 부부 부부라고하는 매우있다 빅 더블의 세계 밖에서도 일반적인 것은 일련의 필드가 생각하는 것입니다 테이블에서 행과 같은 Apple과 튜플은 일반적으로 다음과 같이 표현됩니다 예를 들어 19 쉼표 2 이것은 커플이고 가방이라는 것이 있습니다 잘 튜플의 모음입니다 정의가 실제로 정확하지 않습니다 가방은 지갑을 포함 할 수 있기 때문에 가방은 실제로 다른 가방도 포함 할 수 있습니다 bad는 정렬되지 않은 콜렉션이므로 나쁜 것은 포함 할 수있는 복잡한 데이터 유형입니다

커플 또는 다른 가방을 포함 할 수 있습니다지도는 시작하는 방법에 대한 핵심 가치 쌍입니다 B로 작업하기 때문에 먼저 가장 먼저 알아야 할 데이터를 이해해야합니다 그렇지 않으면 작업하는 것이 옳지 않으므로 먼저해야 할 일 데이터는 이제 빅 데이터 시나리오에서 매우 일반적이라는 것을 이해합니다 데이터를 이해해야 데이터 작업을 시작할 수 있습니다 작업 할 데이터를 보여 주므로 이제 작업 할 데이터가 있습니다 2 개의 파일 세트가 있습니다

매일 뉴욕 증권 거래소라고합니다 예를 들어 첫 번째 열은 교환입니다 뉴욕 증권 거래소 이름 인 두 번째 열을 기호 또는 시세 이것은 우리가 모니터링하는 주식 이름이며 날짜가 있습니다 이것은 날짜 열이며 시작 값 마감 값이 높음입니다 총 거래량과 다른 가치가 있으므로 기본적으로 이것은 주식 데이터입니다 모든 주식은 시가 총액 종가가 높고 총 판매량이 적습니다

그리고 이것은 정말 좋은 데이터 세트입니다 공공 극장 세트입니다 이 데이터에 대해 많은 작업을 수행 할 수 있다는 것을 알고 있으므로 데이터 세트 두 번째 데이터 세트는 비슷한 데이터 세트이지만 4 개만 있습니다 이 열은 먼저 교환 이름 NYSC를 두 번째로 표시합니다 세 번째 날짜와 마지막 열은 배당이므로 네 개의 열이 있으므로 다음은 우리가 처음에 큰 것을 이해하기 위해 사용할 두 데이터 세트입니다

데스크톱으로 이동하여이 데이터 세트를 모두 사용할 수 있습니다 바탕 화면에서 볼 수 있습니다 매일 뉴욕과 뉴욕 SD 배당금 모두 데이터 세트는 내 데스크탑에서 가장 먼저 알아야 할 사항입니다 큰 것은 큰 두 가지 모드로 실행할 수 있다는 것입니다 로컬 모드이 모드에서 두 MapReduce 모드는 로컬에서 데이터를 읽습니다 파일 시스템 그것을 변환하고 로컬 파일에 다시 저장 이 모드에서 시스템 괜찮습니다

Pig는 HDFS 파일 시스템 변환에서 데이터를 읽습니다 그것을 HDFS 파일 시스템에 다시 저장하는 것은 괜찮습니다 Big Data Hadoop 아키텍트 intellibid로 인증 받기를 원합니다 모든 주요 데이터를 다루는 빅 데이터 하둡에 대한 전체 과정을 제공합니다 전문가가 사용하는 구성 요소 및 도구는 자세한 내용은 설명에 언급 된 링크로 돌아가서 세션은 두 가지 모드에서 Pig를 실행할 수 있음을 의미하며 로컬 모드와 MapReduce 모드 로컬 모드는 로컬 모드에서 Pig를 시작하면 그것을 시작하면 기본적으로 Linux 컴퓨터에서 데이터를 가져옵니다 Linux 컴퓨터의 데이터가 Linux의 데이터를 읽습니다

기계 권리와 그것은 당신이 그것을 요구하는 모든 변환을 할 것입니다 Linux 시스템에 다시 저장하면 로컬의 Hadoop에 닿지 않습니다 MapReduce 모드의 모드는 동일한 개념이지만 HDFS에서 데이터를 읽습니다 즉 Hadoop은 다시 Hadoop에 저장합니다 MapReduce 모드는 예측 로컬 모드에서 테스트 용으로 사용하는 것입니다 예를 들어, 돼지 스크립트를 작성하고 어떻게 작동하는지 확인하려는 경우 랩톱의 로컬 모드에서 Pig를 실행하여 노트북의 하드 디스크는 하드 디스크에 다시 저장하므로 로컬 모드를 사용하여 얼마나 큰 효과가 있는지 경험하십시오

MapReduce 모드를 사용하면 가장 먼저 보여 드릴 것은 로컬 모드입니다 데이터를 읽고 변환하여 로컬에 저장하는 방법을 의미합니다 파일 시스템이 바로 돼지를 시작하기 위해 Cal 모드는 B 대시 X 로컬을 입력하기 만하면됩니다 로컬 모드에서는 Hadoop 및 로컬 모드와 아무런 관련이 없습니다 방금 테스트에 사용했습니다

grunt라는이 프롬프트가 표시되는 것을 어떻게 알 수 있습니까? 그래서 grunt는 큰 프롬프트입니다 실제로 이것은 큰 권리의 프롬프트입니다 여기에 첫 번째 큰 명령을 입력 할 수 있습니다 이것이 픽업 라인의 모양입니다 코드 줄처럼 큰 스크립트 줄이 이렇게 보일 것입니다 내가 무엇을 먼저 썼는가 배당금과 같은 기호가 있으므로 언제든지 볼 수 있습니다

이 기호는 그것이 관계라는 것에 큰 관계라는 것을 의미합니다 이 기호와 같은 것을 볼 때 관계를 어떻게 식별합니까? 위반 그래서 여기에 나는 배당금이 같다고 말하는 DI 관계를 선언하고 있습니다 이 파일을 교환 기호 날짜 배당으로로드 이제이 배당금은 괜찮을 수도 있습니다 방금 배당금으로 불렀습니다 예를 들어 ragu가 여기에서 작동한다고 말할 수 있습니다

당신이주는 것은 정말로 중요하지 않습니다 변수가 아닌 방식으로 기억하십시오 돼지에는 변수의 개념이 없습니다 이것은 변수가 아닌 관계라고 불립니다 이제 우리는 ragout이 load와 같다고 말합니다 파일은로드되지 않는 일부 데이터가 있음을 의미합니다 돼지의 연산자 또는 실제로로드하는 것을 호출 할 수있는 함수는 이제 파일에 대한 포인터를 만들 것입니다

ragu ragu를 호출하면이 파일을 의미 하며이 파일은 4 개의 열과 열 이름 바꾸기 기호 날짜 및 배당 내가 말하는 모든 데이터 유형을 의미하는 스키마를 제공하지 않음을 알 수 있습니다 돼지는 라구라고 부르면 돼지를 아는 것입니다이 파일을주세요 파일의 열은 모두 내가 4 개의 열에 대한 헤더입니다 이제 실제로 관계를 작성하는 여러 가지 방법이 있지만 이것을 기억하십시오 당신은 돼지와 함께 일하기 위해 관계로 시작해야하므로 첫 번째 단계 모든 Pig 스크립트에서 실제로 데이터를로드하거나 데이터를 가리키고 있기 때문에 데이터 없이는 어떻게 작동합니까 데이터 없이는 어떻게 작동합니까 바로 지금이 데이터를 가리키는 Yahoo라는 관계를 만들었습니다

맞아 그리고 당신은 또한 내가 관계를 만들었을 때 아무것도 알지 못했다 Raghu가 이것을로드하는 것과 동일하다고 말했지만 괜찮습니다 돼지를 게으른 연산자로 부르기 때문에 아무 일도 일어나지 않습니다 동물 돼지처럼 돼지는 아주 게으르다 그래서 당신에게 예를 제공 당신이 집에 앉아 있다고 가정 해 봅시다 아내 나 여자 친구와 함께 집에 앉아 너에게 와서 내일 저녁에 오늘 저녁을 의미한다고 말해 당신은 나가서 무언가를 얻어야하고 그녀는 당신이하는 것들의 목록을 만듭니다 예를 들어 슈퍼마켓에 가서 뭔가를 사야하고 당신은 전화 교환에 가서 청구서를 지불해야 할 수도 있습니다 우유 배달원에 가서 우유를 얻습니다

당신은 당신이해야 할 일의 목록을 만들고 있습니다 집에 앉아서 아내가 옳은 일을해야한다고 당신이해야 할 일의 목록을 만드십니까? milkman은 가서 슈퍼마켓이라는 단어가 나온 후 2 리터의 우유를 얻습니다 그 단어 전화 교환 후 식료품 가게 가서 가서이 xxx 당신을 얻을 해야 할 일의 목록을 만들지 만 때가되면 할 때 실제로 당신이하는 일을 그냥 나가서 하나씩 실행하십시오 Raghu는이 데이터를로드하는 것과 같습니다 Enter 키를 누르면 아무 일도 일어나지 않습니다 내가 할 일 목록을 만드는 것처럼 돼지에게 데이터 코어 Raghu라고 말하고 있습니다

돼지는 저에게 물어볼 것입니다 만약 이것이 이것이 데이터라면 어떻게해야합니까? 내가 옳은 일을하지 않겠다고 주장하기 위해서만 계속하겠습니다 배당금으로 괜찮습니다 그래서 이렇게 변경할 수 있습니다 완전히 역동적이어서 약물에서 배당으로 바꿨으니 배당으로 읽었으니 먼저 관계를 선포합니다 스키에주의를 기울이려면 구문을 선택해야하지만 돼지에게 말합니다 당신은 기호로 돼지 그룹 배당을 알고 배당은 내 이전 관계 I 기호 열별로 그룹화하여 다른 관계에 저장하려고합니다

이제 무슨 일이 있었는지 그룹화하고 두 번째 진술이 있습니다 첫 번째 진술로 여전히 아무것도하지 않고 지불됩니다 아무것도 게으르지 않아 아주 게으르다 각 그룹에 대해 이전 관계가 있다고 말하면 그룹 번호가 생성됩니다 배당금의 평균을 AVG라는 관계에 저장하여 여기에 세 가지 명령을 입력했습니다

이들은 세 가지 또는 돼지 용어로 세 가지 관계입니다 각 줄마다 아무 일도 일어나지 않은 이유는 없습니다 빨간색과 돼지는 그것을보고 그것이 무엇을해야하는지 볼 것입니다 무언가를해야하지만 요청하지 않는 한 출력을 요구하고 있습니까? 출력 Pig는 아무것도하지 않습니다 Pig는 게으른 자세를 취합니다

알았어 데이터 두 번째 줄은 괜찮아요 세 번째 줄의 열은 모든 배당금의 평균을 계산한다고 말할 것입니다 괜 찮 아 요하지만 마지막으로 무엇을 볼 수 나는 인쇄처럼 평균을 볼 수 자바에서 문장을 마지막으로 말하면 시스템 도트 도트 println 바로 출력을 볼 수있는 곳이므로 인쇄하지 않았습니다 돼지에 대한 명세서 지불에 대한 인쇄 명세서를 어떻게합니까 나는 덤프 AVG를 말할 것입니다 그래서 dump는 기본적 으로이 관계 덤프 수단을 실행한다고 말하는 유료 키워드입니다 당신이 할 때 Pig에게 그것을 시키거나 인쇄하거나 출력을 보여달라고 요청하고 있습니다

AVG를 덤프합니다이 줄을 읽으면 AVG가 두 그룹으로 수집되어 이 그룹으로 이동 배당과 관련이 있으므로 배당으로 이동하십시오 한 줄씩 실행을 시작하고 Enter 키를 누르면 결과를 보여줍니다 MapReduce 작업이 시작되고 한 줄씩 실행되고 나에게 평균 헨리는 모든 주식 평균이 기록되어 있는지 확인해야합니다 얼마나 큰 효과를 나는 지금 당신이 구문을 이해하고 싶지는 않지만 큰 느낌 만 실제로는 그런 관계에서 배당을 계산하면 계산하는 그룹을 그룹화합니다

그런 다음 덤프 평균이라고 말하면 이것이 올바른 방법 중 하나입니다 하지만이 문제는 당신이 입력하는 것입니다 한 줄씩 명령을 입력하십시오 한 줄씩 명령을 입력하고 마지막 줄 dump AVG dump는 화면에 결과를 표시하는 데 사용하는 키워드입니다 AVG는 이전의 관계이므로이 작업을 원하지 않으면 알고 있습니다 여기서 나가면 스크립트로 쓸 수있어 새 파일을 만들 수 있습니다

이 파일을 테스트 도트 피그라고 부릅니다 파일 테스트 도트 피그의 이름 돼지입니다 돼지 스크립트를 만드십시오 흠 이 파일 안에 그냥 내 의견을 쓸 수 있으므로 그냥 붙여 넣기 만하면됩니다

방금 dot pig 테스트라는 파일을 만들었고 파일을 열면 우리가 가지고 있었지만 지금 할 수있는 것과 같은 네 가지 진술 돼지 대시 X 로컬이라고 말할 수 있습니까? 이것은 로컬 모드에서 Pig를 실행하고 있음을 의미합니다 내 파일은 데스크탑에서 파일을 읽습니다 데스크탑에는 이미 파일이 있습니다 Enter 키를 누르면 테스트 도트 P라는 스크립트를 실행하십시오 그 같은 일과 당신은 당신이 바로 다시 프롬프트 그래서 당신은 셸을 실행하여 피크와 대화식으로 작업 할 수 있습니다 명령을 한 줄씩 입력하거나 전문가가 아닌 경우 Pig를 아주 잘 사용하면 큰 명령으로 실행해야 할 모든 명령을 넣을 수 있습니다

왜 우리는 무엇을 배웠는지 우리는 그 돼지를 배웠습니다 지역에서 더 많은 일을 할 수 있습니다 로컬 컴퓨터와 내가 저장하면 다른 것을 저장하는 것을 알 수 있습니다 이 스크립트의 한 가지 문제는 스크립트가 데이터 또는 평균을 찾아 결과를 보여 주지만 결과를 저장하지 않습니다 덤프 대신 결과를 저장하려면 어디서나 store라고 말할 수 있습니다

평균 2 개는 4 월 8 일이라고 폴더 이름을 지정합니다 세 줄을 실행하고 4 월 8 일이라는 폴더에 AVG를 저장 스크립트를 실행할 경우 스크립트를 실행하면 동일한 방식으로 실행되지만 LS를 수행하면 결과를 내 컴퓨터의 폴더에 저장하십시오 4 월 8 일이라는 새 디렉토리가 있으며 4 월 8 일로 이동하면 파일이 있습니다 파일을 여기에서 열면 부분 R이라고합니다 결과는 돼지에게 화면에 결과를 보여달라고 부탁하거나 돼지에게 파일이 작동하는 두 가지 방법으로 결과가 나타납니다

4 월 8 일은 폴더 이름이됩니다 폴더 안에 파일이 생성 될 부분이 생성됩니다 4 월 8 일 폴더 안에 있습니다 돼지의 MapReduce 모드도 있습니다 바로 Pig의 math reduce 모드에서 우리가 할 일은 데이터를 읽을 것입니다

HDFS는 변환을 통해 데이터를 다시 저장하여 동일한 예제를 사용하지만 내 데이터는 하둡에 있으므로 표시하겠습니다 하둡에서도 동일한 데이터를 사용할 수 있으므로 이것이 바로 하둡입니다 휴와 당신은이 NY가 매일이고 NYC 배당은 이미 하둡이 바로 MapReduce 모드에서 돼지를 실행하려면해야 할 모든 것 돼지를 입력하고 Enter 키를 누르십시오 이전에 돼지를 입력 할 때 사용했던 기억-X 지역은 지금 당신은 돼지라고 말해야하고 당신은 같은 grunt 프롬프트를 볼 수 있지만 예를 들어 내가 쓸 것이라고 말할 수있는 것과 같은 명령의 차이가 있습니다 다시 말하면 더 낮은 사용자가 Cloudera를 슬래시한다고 말해야합니다

슬래시 그래서 여기 하둡 경로를 제공해야합니다 흠 하둡 경로를 제공해야합니다 내가 지금 저장하고 싶다면 슬래시라고 말할 수 있습니다 사용자 슬래시 Cloudera는 April end라는 폴더를 슬래시하므로 MapReduce 작업은 파일을 Hadoop에 저장합니다 jar 파일을 생성하고 실행중인 것을 볼 수 있도록 폴더에 MapReduce 작업 종료 바로 cetera 그래서 런처를 생성합니다 적절한 MapReduce 작업으로 완료율이 0 %임을 알 수 있습니다

MapReduce 달에서 실행되어 결과를 올바르게 볼 수 있습니다 내가 휴로 가면 다시 같은 디렉토리로 돌아가 4 월 8 일이라는 폴더를 만들었어야합니다 여기는 4 월 8 일입니다 결과 파일은 내 요점은 달리기 명령과 모든 호를 선택하는 것입니다 로컬 모드와 MapReduce 모드에서 Pig를 실행하려면 똑같습니다

로컬 모드 또는 MapReduce 모드에서 유일한 차이점은 아는 것입니다 로컬 모드에서는 Linux의 입력 경로와 출력 경로를 제공해야합니다 Maya 생산 모드의 Linux는 Hadoop 출력 경로의 입력 경로를 제공합니다 유일한 차이점 인 하둡 이제 우리는 스키마를 살펴볼 수 있습니다주의 깊게 관찰하면 내가 무엇을하고 있는지 볼 수 있습니다

당신은 무슨 일이 일어나고 있는지 이해할 것입니다 대화식 모드 로컬 모드 로컬 모드 선택을 시작하겠습니다 즉, 바탕 화면에 파일이 있고 파일을 읽고 올바르게 작업하고 싶습니다 로컬 모드에서 시작해서 두 가지를 먼저해야합니다 중요한 것은 배당금이 교환 캐리어로 데이터를로드하는 것과 같습니다 심볼 캐리어 날짜 캐리어 배당 플로트이므로 명시 적 데이터입니다

타입 선언은 이것이 일반적으로 데이터가 있고 열을 알고 어떤 데이터 유형을 알게 될지 피그에게이 데이터를 불러 4 개의 열이있는 NY St 배당 및 4 개의 데이터 유형 이 돼지를 사용하면 모든 데이터 유형을 고수합니다 다른 프로그래밍 언어와 마찬가지로 제공되므로 여기에서 내가 원하는 데이터 유형이며 관계의 데이터 유형을 어떻게 알 수 있습니까 설명 배당금 설명 기술 사람들이 말하는 증거 다른 배당에는 네 개의 열이 있으며 이것들은 열입니다 이제 우리는 내가 한 일을 여기에 설명하지 않았습니다 명시 적 데이터 유형을 나타내는 데이터를로드했습니다 내가 데이터 유형을 보여줄 것입니다 배당을 설명하는 데이터 유형입니다 배당에 대한 유형과 이것이 우리가 알고있는 데이터 유형을 알고 있다고 말합니다

그런 다음 배당금은 부하 NYSC 밑줄 배당금 최신이라고 말했습니까? 매일 말할 수 있으므로 다른 예를 들어 봅시다 또는 당신은 이것을 말할 수 있고 매일 설명 할 수 있습니다 파일을로드하십시오 스키마를주지 않으므로 설명을하면 돼지는 매일 알 수없는 스키마를 말할 것입니다 스키마를 언급 했으므로 이제 문제는로드하는 것입니다 스키마를 설명하지 않고 이와 같은 파일을 사용하여 작업을 수행 할 수 있습니까? 예, 당신은 그렇게 할 수 있습니다

그것은 큰 장점입니다 다른 도구는이 장점을 가지고 있습니다 이제 내가 한 일이 New York Stock이라는 파일을로드했음을 보여줍니다 매일 교환하면 열 이름이 없거나 열 이름이 없습니다 데이터 유형이나 그 외의 다른 종류의 돼지가 스키마를 알 수 없지만 데이터를 변환하여 데이터를로드 한 다음 나는 매일 매일 말하고 있으므로 매일 매일이 데이터가 올바르게 생성됩니다

7 천 달러로 7 달러는 8 열이므로 숫자가있는 열을 나타냅니다 돼지에게 여덟 번째 열의 모든 숫자를 다시 천으로 나누도록 요청합니다 돼지에게 네 번째 열의 모든 요소에 1000을 곱하도록 요청하면 돼지에게 첫 번째 열에서 첫 번째 문자를 추출하도록 요청 또한 모든 행에서 일곱 번째와 네 번째 열 요소를 빼도록 지불하도록 요청 이제 각 생성에 대해 호출 된 연산자를 사용하도록 구문을 그대로 두십시오 기본적으로 제가 돼지에게 물어 보는 것은 이봐 요

매일 오른쪽에 8 개의 열이 있으며 열 이름이 없습니다 괜찮지 만 8 열이 있으므로 데이터를로드 할 때 분명히 데이터는 탭으로 구분됨 Pig는 읽을 수 있으므로 Pig는 탭의 탭인 데이터를 예상합니다 데이터가있는 경우 모든 열을 탭으로 구분해야합니다 탭으로 분리하지 않으면 코마 또는 당신이 가진 것과 같은 인수를 줄 수 있습니다 그러나 기본적으로 내 데이터는 탭으로 구분되므로 매일 NYSC로드를 말하면 모든 열을 자동으로 식별하여 모든 열의 이름을 지정합니다 $ 0 $ 1 $ 2 $ 3 천 단위로 8 번째 열의 모든 요소를 네 번째 열의 모든 요소를 ​​천 단위로 나누어 곱할 수 있습니다

100 도트 제로 및 하위 문자열 연산은 첫 번째 달러 0부터 의미합니다 열 0에서 1까지의 첫 번째 문자를 원하며 모든 행에 대해 원합니다 빼기 달러 6 빼기 달러 3은 7 번째 코너-4 번째 열을 의미합니다 내가 당신에게 말하려고하는 것은 당신이 돼지에게 모든 요소를 ​​나누도록 요구하고 있다는 것입니다 여덟 번째 열에서 천 단위로 누군가에게 무언가를 나누라고 요청할 때 즉, 숫자는 정수 여야하므로 돼지는 자동으로 네 번째 열에 대해 일곱 번째 열을 다시 정수로 캐스트하십시오 100

0을 곱하면 1000으로 곱하면 1000은 콜론을 double 데이터 유형 double로 가정하고 캐스팅 할 때 하위 문자열이라고 말하면 추출하려는 것을 자동으로 이해합니다 이게 카테 리라는 것을 이해할 것입니다하지만 당신이 말할 때- 당신이 선택을 요청하기 때문에 달러 6-달러 3 혼란이있을 수 있습니다 빼기 작업을 지금 할 수 있습니다 빼기 작업은 개인이 할 수 있습니다 정밀도를 위해 Pig는 두 가지를 모두 가정합니다

부동 소수점이며 덤프를하면 뺄셈을 수행합니다 당신이 그것을 제공하지 않고도 결과를 보여줄 것입니다 스키마는 스키마를 이해할 수 있으므로 첫 번째 열은 정수입니다 두 번째 열은 천 단위로 나누도록 요청하기 때문에 두 번째로 두 배는 칼로리입니다 네 번째는 다시 부동 소수점입니다 이 계산을 다시 한 번 보여 드리겠습니다

결과를 봅니다 이해하면 이것이 이것이 어떻게 될지 알려줍니다 스키마를 이상적으로 언급하지 않고 스키마를 언급해야합니다 돼지가 당신을 위해 일하는 또 다른 것은 내가 의미하는 스키마를 언급해야합니다 그것이 우리가하는 일이지만 스키마가없는 경우도 있습니다

데이터를 빠르게로드하고 예를 들어 약 10 열의 텍스트 파일을 얻는 것은 모두 당신이 할 수있는 jure의 정수입니다 그냥로드하고 모든 데이터 유형을 선언 할 필요가없는 모든 작업을 수행하십시오 당신은 당신이 ok라고 말할 때 천을 나눈 것을 알기 때문에 그것이 정수를 나누고 정수로 캐스트하여 정수 연산자를 작성하는 연산자 나 구문을 지금 자세히 살펴보십시오 내가로드 운영자가 만들 것이라고 말한로드 운영자는 무엇입니까? 당신이 내 데이터를 보면 그것을 사용하면이 NY se 밑줄 배당 또는 NY s 키이므로 이 데이터가 탭으로 구분 된 데이터는 구분 기호가 탭이며 기본적으로 탭 구분 기호를 사용하는 경우 big은 데이터를 이해하지만 데이터에 탭이없는 경우 데이터에 쉼표가 있으면 어떻게해야합니까? 이 데이터를 보면 올림픽 데이터 세트입니다 쉼표로 구분 된 데이터 이제 쉼표 구분자 데이터로 무엇을 할 수 있습니까? 이 데이터를 매우 간단하게로드하려면 그림에 있습니다 동등한 부하라고 말하십시오

올림픽이라고하면 큰 저장 공간을 부르고 있습니다 올림픽이 큰 스토리지 코마를 사용하는 내 파일 이므로이 큰 말을해야합니다 스토리지 다른 유형의 데이터를 가지고 있다면 간단히 할 수 있습니다 로드 연산자이므로로드 올림픽이라고 만하면 데이터가 pic 스토리지 코마를 사용하여로드 올림픽이라고하면 탭으로 구분 된 값은 데이터가 약간 혼수 상태이므로 CSV 파일이 있으면 매우 좋습니다 또는 쉼표로 구분 된 값 등이 데이터를로드하는 방법입니다

데이터가로드되는지 확인하십시오 스키마가 없습니다 스키마가 없습니다 우리가 언급하지 않았기 때문에 데이터를 덤프 해야하는 덤프를 말할 수 있습니다 데이터를 볼 수 있으므로 데이터가 완벽하게로드 된 것을 확인할 수 있습니다 로드 연산자를 사용할 때이를 사용하여 참조하십시오 결과를 저장하려면 운영자에게 바로 저장하십시오 그러면 내가 아는 모든 것을 하둡 폴더 이름으로 저장한다고 말할 수 있습니다

여기에 폴더를 만들어야하고 덤프를 저장하여 결과를 보여줍니다 화면과 저장소는 데이터를 폴더에 저장하므로 상점 운영자를로드하거나 번호 운영자 데모 운영자가 백만 줄을 가지고 있다면 좋지 않은 화면 상점에 매장이 있다고 말하면 화면에 백만 줄을 모두 던져 그녀의 개 어딘가에 당신은 당신이 액세스 할 수있는 모든 폴더 이름을 제공 할 수 있습니다 관계 연산자 OK 우리는 관계 연산자라는 것을 가지고 있습니다 맞습니다 몇 가지 예를 보여 드리겠습니다 이것으로 저는 다른 사람을 낮추고 여기에 관계를 만들고 싶습니다 여기에 열 이름을 지정한다는 것을 알고 있으므로 매일 NYS를로드하십시오

교환 기호 날짜 열기 높은 낮음 닫기 볼륨 조정 닫기 돼지에게 익숙해야하는 첫 번째 조작자가 각 운영자가 어떻게 작동하는지는 각 운영자가 모든 행을 가지고 당신이 언급하고있는 작업을 적용하십시오 close minus open이라고 말하면 또 다른 콜론이라는 열이 있습니다 바로 연이어서 속편 루프와 같아서 무언가를 적용 할 것입니다 속편 루프처럼 모든 레코드를 교환하고 이것이 작동하는지 확인하려면 어떻게해야합니까? 따라서 gain이라는 연산자를 덤프해야하므로 관계 코드가 완료되었다고 말할 것입니다 그리고 그것이 전부입니다 훨씬 더 많은 일을하세요

이제 제가 한 일을 제가했던 바로 C라고 말할 수 있습니다 가격은 각 가격에 대해 말할 수 있습니다 이제 C 덤프를하겠습니다 제가 지금 한 일을 보았습니까? 가격은 딸을 제로 달러로 생성합니다 두 개의 열과 내가했을 때 정확히 두 개의 열을 얻었으므로 어떻게 쉽게 필터링하는 것입니다 나는 단지 당신이 알고있는 3 개의 열을 호출하고 싶습니다

당신은 그것을 캐스팅하는 방법조차하지 않습니다 방금 말한 데이터 유형을 말할 필요가 없습니다 당신이 얻는 각각에 대해로드하고 그렇게 별도의 파일로 저장하십시오 이것은 데이터 변환이므로 매우 쉽게 말할 수 있습니다 데이터 변환은 대소 문자를 구분하는 관계입니다

내가 말하는 것은 하중이 같음 하중과 같지 않다 B 0 txt를로드하고 자본에 동일한로드를 너무 작게 말합니다 대문자 a가 다르므로 관계 이름은 대소 문자를 구분하지만 말할 수는 있습니다 이 또는이 중 하나를 사용하면 작업자가로드와 같거나 각각에 대해 사용할 수 있습니다 작은 글자 또는 대문자이지만 관계 이름은 매우 구체적입니다 각 연산자마다 범위를 언급하는 데 사용할 수 있습니다 동일한 데이터 가격을 올바르게로드하고 있으며 말할 수있는 일을 할 수 있습니다 각 가격에 대해 도트 도트 오픈을 생성하여 교환 기호를 생성합니다

date open 모든 열이 열리거나 open dot dot close라고 말할 수 있습니다 높음 낮음 닫힘 또는 볼륨 및 조정을 의미하는 볼륨 도트 도트라고 말할 수 있음 밑줄을 닫으면 이와 같은 열 범위를 언급 할 수 있으므로 div라는 관계를 다시 만들었습니다 동일한로드하고 있습니다 좋아, 그래서 여기에 관계를 만들고 우리가 몇 개의 열을 가지고 있는지 이 관계이지만 큰 것은 열이라고하지 않습니다 기록 미안 그것은 실제로 필드가 아니라 우리가 얼마나 많은 필드를 기록 교환 기호 날짜와 배당에 대한 div 관계를 가지고 있으므로 네 가지 분야에서 내가하고있는 일을 살펴보고 각각에 대한 밑줄 의미 200 또는 0의 배당 코마 배당으로 100/0으로 배당을 생성 그래서 이것은 내가 올바르게 쓰는 방식을 약간 혼란스럽게합니다

그래서 저는 이전 데이브 관계인 각 데이브에 대해 말하고 싶습니다 이 필드에 배당금이라는 200을 배당금으로 곱하면 무엇이 좋을까요? 여기서 배당금으로 1000으로 배당금을 썼습니다 다시 1000으로 배당 그것은 필드 이름은 내가 무엇을 말하고 있는지 참조하십시오 배당 열을 알고있는 모든 요소에 곱셈을 알고 있거나 배당하지만 필드를 올바르게 말하면 배당이라는 이름으로 저장됩니다

새로운 열이나 배당이라는 새로운 필드를 만들고 있지만 두 번째에는 내가하고있는 일 나는 배당에 모든 요소를 ​​곱하지만 새로운 열로 저장하지 않기 때문에 자동으로 일이 일어 났을 때 내가 쓰면 열이 있습니다 두 번째 열의 배당은 두 번째 열입니다 열이 없습니다 이름과 달러로 액세스 할 수 있습니다 즉, 작업을 수행 할 때마다 그렇지 않으면 달러 표기법으로 열을 생성합니다

좋아 필터 hmm로 가자 그래서 필터 연산자에서 나는 그냥로드합니다 데이터는 먼저 교환으로 느린 배당금을 말합니다 기호 후보 칼로리와 배당금을 떠 다니면 괜찮습니다 DV로 div를 필터링 한 다음 볼 수있는 데이터가 무엇인지 모르는 것보다 큽니다 내가 무엇을 먼저 했습니까? 이 뉴욕처럼로드는 교환 기호 날짜와 배당금으로 배당금입니다 필터 수명이라고 말할 수 있습니다 포인트 4 팀보다 큰 배당 열 나는 당신이 알고있는 모든 행을 원합니다

따라서 어떤 값보다 큰 열은 어떤 값보다 작은 열보다 작을 수 있습니다 약간의 가치와 나는 D의 덤프를했다 그것은 덤프 이 열이 01보다 큰 모든 레코드를 보여주세요 연산자는 조건 필터를 사용하여 열 값은 이제 뭔가보다 작을 수 있습니다 문자가있는 경우 부동 숫자 등에서 작동합니다

이 예의 예 처음 두 열은 문자 오른쪽 세 번째입니다 날짜는 그대로 두십시오하지만 처음 두 가지는 문자열입니다 열 이름 인 기호로 cm을 필터링하는 필터 점을 말할 수 있습니다 별표는 표현식과 일치하는 것이므로 모든 레코드를 원합니다

기호 열에서 빨간색으로 C로 시작하여 C 또는 C를 덤프했습니다 오 cm ACM 참조 em K 참조 em K 필요한 것은 열을 필터링하는 것입니다 정규 표현식이거나 그보다 작은 것보다 큰 것 필터 연산자입니다 이제 필터 연산자입니다 이 연산자를 그룹화 연산자라고하는 중요한 연산자입니다

큰 경우 매우 매우 중요합니다 운영자가 너무 많습니다 실제로 어쨌든 먼저 그룹화를 살펴 보겠습니다 먼저 데이터를로드하겠습니다 다음과 같이 데이터를로드 할 수도 있습니다

여기서로드를 알고 있다고 말하고 있습니다 ny는 매일 교환 및 재고로 사용됩니다 단 두 열만 사용하고 있습니다 나는 단지 두 개의 열만 사용하므로 두 개의 열만로드합니다 그룹별로 재고를 매일 그룹화하면 그룹화가 그룹화를 보는 매우 일반적인 작업입니다

많은 장소에서 속편 그룹화하지만 그룹화는 매우 다른 방식으로 작동합니다 당신의 피크에 내가 여기에보고있는 것은 내가 이전을 그룹화하고 싶다는 것입니다 내 데이터 인 관계는 실제로 재고 이름을 구입하므로 모든 재고 이름이 함께 올 것입니다 예를 들어 함께 올 것입니다 GRP 덤프에 특정 형식이 있으면 괜찮습니다 그룹화 결과 또는 다른 데이터 세트를 얻을 수 있는지 확인하여 등가 하중이라고 말할 수 있습니다

림픽 또는 림 픽픽 빠른 스토리지 코마를 사용하면 이것이 올림픽 데이터 세트입니다 기본 스키마로로드 할 스키마를 언급하십시오 액세스 0 0 2라고 말하면 B는 그룹 a 2와 같다고 말할 수 있습니다 달러 2 4로 그룹화하므로 달러 2 달러 2가 무엇입니까? 덤프 B를 말할 때 국가를 기준으로 데이터를 그룹화하십시오 점점이게 아마 당신에게 보여주고 싶은 것입니다 당신은 국가 이름을 가지고 있으므로 매우 적은 국가를 보자 실제로 선수를 식별하기가 쉽습니다

그룹화 작업 기록 이것은 하나의 기록이므로 여기에는 두 부분이 있습니다 하나는 국가 인 그룹화 키이므로 국가를보고 있습니다 도미니카 공화국이라는 두 번째 부분은 도미니카 공화국 도미니카 공화국에있는 한 남자가 있습니다 다른 남자가 있습니다 다른 남자가 있습니다

다른 남자가 있습니다 그룹화 할 때 그룹화 결과가 어떻게 발생하는지 내 요점은 작업 결과는 키 값 쌍과 같습니다 키는 그룹화 키입니다 이 경우 내 기록 도미니카 공화국의 국가 가치는 도미니카와 일치하는 모든 기록을 포함하는 가방입니다 트리니다드 토바고와 같은 방식으로 국가 권리와 이것들은 모두 트리니다드 토바고의 가치입니다 가방에서 그룹화 키인 첫 번째 요소 트리니다드 토바고 당신은 트리니다드 토바고에있는 모든 운동 선수가 있으므로 이것은 하나의 기록입니다 트리니다드에서 하나의 콘센트가 있고 다른 하나는 아 틀렛입니다

그래서 내가 할 수있는 것은 각 B에 대한 것입니다 그룹을 생성합니다 이와 같은 것을 말하고 셀 수 있다고합시다 올림픽을 낮춘 다음 BB가이 그룹을 C는 각각의 B가 쉼표를 생성한다고 가정 할 수 있습니다 기본적으로 우리가하는 일은 실제로 데이터 수를 세는 것입니다 덤프 C 그래서이 문장은 우리가 데이터를 잘로드하고 있다는 것을 의미합니다

우리는 주문에 달러로 내 원래 데이터 인 그룹 A를 말했다 C에서 내 국가 열이 각각에 대한 그룹 이름을 생성하므로 국가 이름을 원하고 그렇게 계산하면 내 원본이 될 것입니다 데이터 오른쪽은 모든 레코드를로드하는 곳이므로 기본적으로 이것은 모든 국가 C의 수를 줄 것입니다 뉴질랜드에는 51 개의 기록이 있으며 북한에는 21 명이 있으므로 그룹화는 이 그룹화와 같은 작업을 수행하는 데 매우 유용합니다 교환 및 재고로 매일 NY NY로드 할 수있는 것과 동일한 작업을 수행 할 수 있습니다 즉, 거래소 및 주식 그룹에 매일이라는 관계를로드하고 있음을 의미합니다

재고를 구입하면 각 그룹에 대해 말할 수 있습니다 그룹으로 묶은 다음 매일 계산하여 몇 개가 있는지 계산합니다 우리가 그룹화 연산자를 어떻게 수행할까요? 이 권리를로드하고 날짜별로 매일 주문 할 수 있으므로 이것이 어떻게됩니까? 날짜 열을보고 기본적으로 오름차순으로 정렬합니다 이 결말을 올바르게 말할 수 있으므로 기본적으로 알 수 있습니다 오름차순으로 오세요

알 수있는 여러 열 주문도 가능합니다 원한다면 날짜별로 쉼표 기호로 주문하십시오 쉼표를 열고 닫으면 매일 주문할 수 있습니다 이 닫힌 필드는 내림차순이되고 다른 필드는 오름차순이됩니다 조인 연산자이므로 조인하려는 경우 데이터를 간단히로드 할 수 있습니다

Dave의 부하 교환으로 간단한 날짜로 간단한 날짜로 매일 가입 할 수 있습니다 단일 열 조인 또는 다중 열 조인을 수행 할 수 있습니다 이렇게하면 매일 호출되는 데이터를 먼저로드 한 다음 데이터를 div라고하고 조인을 수행 할 수 있으므로 정상적인 조인이됩니다 원하는 조인 유형에 관계없이 왼쪽 바깥 쪽 오른쪽 바깥 쪽을 수행 할 수도 있습니다 내가 말하면 나는 기호 코미디로 Kumar de Deus 기호로 매일 가입한다고 말하고있다

J와 D는 다중 열 결합 결과 c3을 가져야합니다 조인 연산자를 사용하면 제한을 말할 수 있으므로 여기에 데이터를로드 할 수 있습니다 나는 말할 수있는 한계를 말할 수있는 스키마를 제공하지 않는 데이터를로드한다고 말하고있다 내가 처음 10 개를 버린다면 이제 한계가 10을줍니다 나만 10이므로 제한 한 것은 10이므로 제한 연산자 내가 어떻게 말하는지 보여줄 레코드의 수를 제한 할 것입니다 무작위 선택 당신은 한계를 말할 수 없으므로 한계 연산자는 실제로 단어 카운트가 무엇인지 지금 바로 데이터를 제한합니다

내가 단어 개수 프로그램을 제대로 실행하고 단지 당신이 있는지 확인하는 것입니다 실제로 스크립트를 먼저 살펴볼 단어 수를 알 수 있습니다 스크립트를 실행하고 결과를 얻고 있는지 확인하여 스크립트 이것은 실제로 우리를 위해 단어 수를 수행 할 스크립트입니다 나중에 스크립트를 설명하자면 이제 단어 개수 프로그램을 실행하면됩니다 무슨 일이 일어날 지 봅시다 이것은이 단어 개수를 가진 스크립트입니다

선택하고 내가 주어야 할 것은 파일 이름과 파일을 아는 것입니다 이 파일이 분석되었습니다이 파일은 분석 할 파일입니다 mary 어린 양의 양털은 눈처럼 하얗고 어린 양이 가서이게 당신의 동요입니다 메리에게 단어 수를 계산할 것입니다 내가 분석해야 할 것은 내 스크립트에서 내가 할 일을 스크립트로 열어서 말할거야 이것이 내가로드하고 싶은 것입니다 그리고 나는 이것을 먼저 실행할 것입니다

돼지-X 지역 단어 수 도트 돼지라고하면이 스크립트를 실행하는 방법입니다 난 그냥 Pig가 내 말을 위해 이것을 실행하고 있다고 말할 것입니다 그게 뭔지 보여줘 내가 그냥 들어가서 우리가 볼 수 있는지 예상 결과를 얻었고 단어 개수를 매우 잘 수행 할 수 있습니다 이 스크립트를 사용하면 우리가 가지고있는 4 줄 스크립트이며 실제로 단어 개수는 이제 이것을 Java 프로그램 인 MapReduce와 비교합니까? 단어 수를하고있는 프로그램은 바로 작성하기가 매우 복잡했습니다 이것은 흠이 너무 쉽습니다 이제 알았으니 이제 무엇인지 봅시다

일어날 것입니다 나는 단지 설명하기보다는이 끊기를 설명 할 것입니다 내가 할 일은 스크립트를 방금 실행하면 한 줄씩 실행한다는 것입니다 스크립트 당신은 아무것도 이해하지 못할 것입니다 그래서 내가 뭘하려고 해요 한 줄씩 줄이려면 전분을 처리하겠습니다 스크립트를 분석해 보겠습니다 이것은 내 치마의 첫 번째 줄이며 설명이 필요하지 않다고 생각합니다

내가하고있는 일은 데이터를 단일 열로 단일 필드로로드하는 것입니다 이 전체를 호출하면 네 줄의 데이터를 단일 열 또는 단일 열로 알 수 있습니다 field 내 열의 이름은 줄입니다 내 열의 이름은 줄입니다 단어 수이기 때문에 모든 데이터 유형 또는 기타 언급 당신이 받고있는 데이터가 무엇인지 알지 못합니다

알고 있으므로이 데이터를 줄로로드하므로 line은 열 이름입니다 여기에 줄이 있거나 기본적으로 내가하는 일 이 작업을 수행하므로 각 단어에 대해 단어라는 다른 관계를 만들 것입니다 내 데이터의 모든 라인이 라인을 토큰 화하여 라인이 무엇인지를 의미합니다 line은 열이므로 line은 열을 나타내는 열을 알고 있음을 의미합니다 데이터 토큰 화는 페이지의 함수 또는 연산자로 추출됩니다

모든 단어는 기본적으로 조직이 무엇을합니까? 기본적으로 각 단어에 대해 말할 때 모든 단어에 대해 행을 생성한다는 의미입니다 평평한 토큰 화 된 라인을 생성하면 할 것입니다 모든 줄을 읽고 모든 단어를 추출하고 모든 단어에 대해 행을 형성합니다 기본적으로 모든 개별 단어를 단일 열에 정렬합니다 단어는 내 열 머리글이 될 것이므로 열 머리글처럼 생각하십시오

여기 줄은 원래 데이터의 열 머리글이며 열입니다 내가 단어 덤프를하면 변환 된 데이터의 헤더 덤핑이 끝나면 이것이 당신이 얻는 것입니다 평평한 것을 평평하게 토큰 화하면 모든 단어를 선택합니다 이 열에 정렬하여 이제 내가 원하는 모든 단어를 갖습니다 셀 수 있지만 마리아가 여기 반복되고 있다는 것을 알고 있습니다

첫 번째 행과 다시 Mary가 여기에 있으므로 Mary가 두 번 반복되므로 Mary를 세어 그룹화해야 다음 단계는 내 데이터를 그룹화하여 나는 G RPD가 단어 verts로 그룹 단어라는 것은 내 관계 단어라고 말할 것이다 열 이름이 괜찮습니다 혼란스러워하는 단어가 아닙니다 내 관계 단어는 열 이름 또는 열 머리글이므로 해당 그룹이 열 단어로 단어 지금 쿨롱 단어는 모든 데이터를 가지고이 데이터 데이터는 실제로 단어를 포함하는 열이므로 그룹화를 기억하십시오 돼지의 연산자이기 때문에 이것이 내 데이터라는 것을 알고 있습니다 나는 그룹화를하고 있다는 것을 알고 있습니다

나는 그룹화를하고 있지만 돼지라는 것을 알고 있습니다 개발자가 알아야 할 것은 그룹화 결과가 어떻게 표시되는지입니다 이를 위해 G RPD라는이 관계 덤프를 수행하고 덤프를 수행합니다 이것과 이것이 Mary라는 요소를 보는 것처럼 보입니다 요소 또는 Mary라는이 레코드에는 두 개의 열이 있습니다

첫 번째 열은 그룹화입니다 메리 두 번째 열인 키는 튜플을 포함하는 가방입니다 Mary의 반복이 아닌 커플이므로 먼저 그룹화 키입니다 두 번째는 양고기와 동일한 Mary의 실제 반복 횟수입니다 눈이 떨어져도 딱 한 번만 반복하십시오 그러나 이것은 당신이해야 할 일입니다

내가 지금해야 할 일은 gr gr마다 각 gr PD에 대한 나의 이전 관계는 그룹을 생성합니다 그룹 여기에 그룹이 첫 번째 열이 될 것입니다 단어를 계산 단어가이 칼럼이 될 것입니다 이것을 적용하면 어떤 일이 일어날까요? Mary라는 그룹을 생성 한 다음 Mary의 반복하는 것은 단어가 원래의 관계라는 것을 기억하십시오 단어 열이라는 단어는 열이있는 곳에 여기에는 데이터를 올바르게 알고 있으며 그룹화 한 다음 말하는 것입니다 이 단어들을 세는 것입니다

기본적으로이 마리아가 아는 단어는 실제로 단어의 일부이므로이 단어를 너무 세고 싶습니다 그리고 이것은 그룹이므로 여기를 보면 각 단어를 그룹별로 단어별로 볼 수 있습니다 그룹을 생성하므로 그룹 생성은 그룹화 키를 생성하고 당신이 C와 PD의 덤프를하면 지금 계산 최종 결과가 있으므로 항상 그룹화 결과를 기억하십시오 작업에는 두 부분이 있습니다 한 부분은 그룹화 키이며 두 번째 부분은 이 경우 Mary가 반복되는 요소는 그룹화 키가됩니다

Mary 쉼표 Mary는 결과가 될 것이므로 알아야 할 것은 각각의 성장을 생성 한 다음 그 관계를 계산하여 어떻게 계산합니까? 여러 번 그것이 일어 났으므로 이것이 단어 카운트 프로그램을 작성하는 방법입니다 Pig를 이용한 기상 데이터 분석 실제로 우리가 지금 할 일은 먼저 데이터를 보여 드리도록하겠습니다 우리가 무엇을하는지 설명 할 것입니다 이것은 우리가 할 데이터입니다 분석하고 멋지게 보이지 않습니다

왜 데이터가 좋지 않습니까? 날씨 데이터이므로 날씨 데이터가 무엇을 의미합니까? 이것들은 센서에서 얻는 데이터의 유형입니다 기본적으로 온도 측정 값과 그 이상이 있지만 실제로는 데이터를 보면 현재 온도 측정에 관심이 있습니다 구조가 없다고 생각하지만 구조는 맞지만 당신은 실제로 그것을 coelom 형식으로 넣을 수 없다는 것을 알고 있습니다 당신은 그것이 우리가 무엇인지 매우 재밌는 방식으로 제공되는 방식을 알고 있습니다 이 데이터에서 할 것은 구조화되지 않은 데이터와 비슷합니다

구조화되지 않은 데이터 우리는 돼지를 사용하여 로컬 모드에서 돼지를 시작한 다음 명령을 보면 내가하고있는 첫 번째 일은 파일 이름이 무엇입니까? 그 다음에 우리는 그것이 돼지 점 txt인지 여부를 확인합니다 가장 먼저 할 일은 내가 말할 데이터를로드하는 것입니다 텍스트 로더를 데이터와 칼로리로 사용하여이 데이터를로드하는 것은 기본적으로 하위 문자열 작업을 수행하려고하기 때문에 이것을 칼로리로 선언합니다 하위 문자열 작업을 수행하고 싶습니다 시간이 지남에 따라 칼로리 그래서 내가 할거야 내가 말할거야 각각의 생성 트림에 대해 트림은 돼지에서 사용할 수있는 연산자입니다 기본적으로 트림하고 data 6이라는이 열에서 부분 문자열을 말할 수 있습니다

14 14 38 45 45 46 53 이것은 이것이 무엇을 의미합니까? 기본적으로 추출하고 싶습니다 문자 위치 6 ~ 14이므로 6 ~ 14 0 1 2 3 4 5 6 6 ~ 14는 kateri로로드 했으므로이 데이터가 무엇인지 알 수 있습니다 이게 맞을 것이고 이것은 날짜 열이 될 것입니다 실제로 볼 수있는 날짜는 2013 년 1 월 1 일과 같은 방법으로 추출하는 것입니다 38 ~ 45이지만 최소 온도 46 ~ 53이며 최대 이제 온도가 자연스럽게 나에게 이것이 데이터라는 것을 어떻게 알 수 있습니까? 데이터를 제공하는 사람에게 데이터를 이해하도록 요청해야합니다

내가 추출한 후에는 기본적으로 실제로 이것을 버리고 바보 같은 공기를 어떻게 보았는지 볼 수 있습니다 데이터가 지금처럼 보이므로 이제 데이터가 날짜로 추출됩니다 날짜는 코마 최소 온도 코마 최대 온도이므로 내 데이터에 대해이 형식이 있지만 사용하지 않으려는 것은 아닙니다 내가 지금 할 일이 다르기 때문에이 데이터를 저장하려고합니다 폴더에 데이터를 올바르게 저장하면 폴더가 있는지 여부를 어떻게 알 수 있습니까? LS를 만들면 data 9라는 새 폴더가 있습니다

데이터라는이 폴더에 LS를 사용하면 공원과 파일이 있습니다 이 부분 M 파일에 데이터가 있으므로 기본적으로 폴더에 데이터를 저장했습니다 데이터가 폴더에 저장되면 할 수있는 일은 데이터에 대한 구조 나는 이것이 아마도 데이터 9가 될 것이라고 말할 수있다 pick storage coma를 사용하여 방금 추출한이 데이터를로드합니다 스키마를 생성 할 때 쉼표로 구분하여 날짜를 최대 값으로 지정합니다

이 데이터를 호출하고 관계에로드 이제 s라는이 관계에는 세 개의 열이 있습니다 원시 데이터에서 추출 되었으며이 세 열은 특정 소와 같은 데이터 유형이 두 배로 증가하므로 이제 날짜가 최대가됩니다 온도와 최저 온도 그리고 내가 원한다면 아주 간단하게 할 수있는 일 내가 할 수있는 더운 날을 찾으려면 x는 filter s를 Max만큼 큽니다 어떤 사람들은 이전 관계를 걸러 낸다고 말합니다 최대 25라는 열에 의해 어떤 날이든 가정하고 있습니다 25 이상의 온도를 갖는 것은 더운 날이므로 이제 XI를 덤프하면 내 더운 날 흠 그래서 마지막 열에서 이것 좀 봐 최대 온도가 25보다 높고 최소 0보다 작을 수도 있습니다

추운 날을 실제로 찾아서 x는 filter ss라고 말할 수 있습니다 XI 덤프를하면 min colum에 의한 관계가 0보다 작습니다 이 결과의 두 번째 열을 볼 수 있습니다 모두 0보다 작습니다 바로 기본적으로 그것은 내가 준 조건입니다

당신도 많은 일을 할 수 있습니다 다른 것들의 지금은 통계 자료를 알고 당신을 향해 더 맞습니다 이것은 통계 자료에 더 가깝기 때문에 기본적으로 찾으려면 오늘 가장 인기있는 것은 당신이 그룹을하는 것입니다 그래서 나는 말할 것입니다 그래서 일반적으로 당신은 날짜 열에 의해 그룹을 최소 열에 의해 최대 열이지만 여기에 group s라고 말하거나 매우 특별한 그룹화입니다 내가 여기보고있어 이것이 내가 당신에게 보여주고 싶은 것입니다 일반적으로 그룹 Y라고 말하면 H 1 덤프를하면 결과는 다음과 같습니다

매우 흥미 롭기 때문에 이것이 실제로 그룹 s를 보는 결과입니다 여기에 하나의 결과 만 생성됩니다이 키는 모두 볼 수 있습니다 모든 가치는 당신이 가진 전체 데이터입니다 그래서 당신이 group s라고 말할 때 당신은 모든 것에 의해 성장하도록 요구하고 있습니다 불가능한 것처럼 돼지가하는 일이 핵심 가치를 창출 할 것입니다 그룹화 키의 조합은 모든 수단이 될 것입니다 모든 것과 가치 부분은 관계의 모든 요소가 될 것입니다 이것이 일어나는 일이고 내가하고있는 일은 각각의 h1에 대해 알고 있다고 말하고 있습니다

즉, 각 h1에 대한 이전 관계는 최대 s 최대 값을 최대로 생성하므로 여기에 새 열을 선언하면 이것이 내가 말하는 것입니다 max와 max 함수를 사용하면 괜찮습니다 최대 값을 찾을 수 있으므로이 관계를 덤프하면 II가 표시됩니다 최대 값이 34 점 하나이므로 이것이 내가 가진 최대 값입니다 지금 더운 날을 찾고 있어요 그래서 내가해야 할 일은 필터 ss는 쿨롱과 같은 max에 의한 나의 원래 관계라고 말해야합니다 최대 도트 수 그래서 최대 도트 수 이렇게 기본적으로 최대를 찾는 것입니다 이 34 개의 포인트가 발생하는 레코드를 원하는 데이터 필터링 기본적으로 그렇게한다면 X 덤프를하면 가장 뜨거운 날이 가장 뜨거운 날입니다 2013 년 6 월 12 일 어쩌면 그것은 조금입니다 이해하기가 복잡하지만 먼저 이해해야 할 것 같습니다

내가 모든 H에 대해 말하는 모든 것에 의해 그룹 s는 당신이 알고있는 최대를 생성하지 않을 것입니다 max를 최대 hmm으로 점으로 지정하면 최대 값을 얻을 수 있습니다 s by max는 i dot maximum과 같으므로 가능한 한 같은 방식으로 만 표시됩니다 당신이 할 수있는 것과 같은 가장 추운 날을 찾아 무선 하루도 찾아보세요 쿨롱의 최대를 말한 다음 할 수 있습니다

여기 필터링 또한이 그룹을 보여주고 싶었습니다 이 방법을 그대로 유지하면이 대신에 당신이 알고있는 각각의 최대 쿨롱에서 최대를 생성하고 내가 그것을 필터링 s 최대 값은 실제로 s 최대 값을 의미합니다 관계 당신은 관계에서 최대 열을 알고 최대 열 그래서 여기서 우리가하고있는 유일한 일은 group s 또는 결과입니다 그룹화 키에서 모두가되고 값은 모든 것이됩니다 당신은 당신이 알고있는 s s는 당신의 기본 데이터이며, 나는 각각의 H에 대해 말하고 있습니다

최대 최대 생성은 내 연산자입니다 s 최대 최대 도트는 최대 열입니다 최대 바로 그때 나는 최대의 필터가 i 도트 최대와 같다고 말하고있다 바로 이것이 내가 쓴 방식이므로 조금 시도해 볼 것을 제안합니다 또한 다른 방법으로 결과를 얻는 방법을 참조하십시오 빅 데이터 하둡으로 인증 받기를 원한다면 빠른 정보를 얻으십시오 architect intellibid는 Big Data Hadoop에 대한 전체 과정을 제공합니다

전문가가 사용하는 모든 주요 구성 요소 및 도구 자세한 내용은 설명에 언급 된 링크를 참조하십시오 질문이 있으시면 세션이 끝납니다 의견 섹션에서 아래에 의견을 보내 주시면 최대한 빨리 연락 드리겠습니다 채널을 구독하는 것을 잊지 마십시오 다가오는 비디오를 놓치지 않고 시청 해 주셔서 감사합니다

Hive Tutorial | Hive Architecture | Hive Course For Beginners | Intellipaat

안녕하세요, Intellipaat의이 세션에 오신 것을 환영합니다 그래서, 이것들이 어떻게 궁금해 한 적이 있습니까? 거대 IT 조직은 데이터를 저장합니다

이 조직들은 다른 트랜잭션 데이터를위한 Oracle과 같은 데이터베이스, 제품을 저장하기위한 MYSQL 다른 작업에 대한 데이터 및 기타 여러 가지 따라서 데이터 저장만으로는 충분하지 않습니다 사용 가능한 데이터를 분석하고 의미있는 통찰력을 추출해야합니다 고객 행동을 이해하기 위해 그래서, 조직은 하둡을 사용하기 시작했습니다 2006 년 Facebook은 Oracle에서 전환 SQL 쿼리를 사용하여 데이터베이스를 Hadoop으로 처리하는 데이터베이스 MapReduce 만 이해합니다

그래서 이것은 그들에게 중복 작업이되었습니다 데이터베이스를 처리하십시오 그래서 그들은 SQL을 변환 할 수있는 인터페이스가 필요했습니다 MapReduce 프로그램에 쿼리하여 클러스터에서 실행하고 결과를 표시합니다 이것이 Hive가 그림에 나오는 곳입니다 그것은 페이스 북에 의해 만들어진 인터페이스입니다 SQL 쿼리를 MapReduce 프로그램으로 변환합니다 이 세션에서 우리는 Hive를 포괄적으로 배울 것입니다

계속 진행하기 전에 채널 구독자와 다가오는 비디오를 놓치지 않도록 벨 아이콘을 누르십시오 또한 Big Data Hadoop에서 인증 된 전문가가되기를 원합니다 intellibid의 Big Data Hadoop 인증 과정을 제안하십시오 건축가 포스트 이제 우리가 시작할 의제를 한 번 살펴 보겠습니다 과대 광고가 무엇인지 이해하면 MapReduce와 그 후에는 서로 다른 유형의 차이점을 살펴 보겠습니다

과대 광고의 기능을 살펴본 다음 과대 광고 인터페이스로 넘어갑니다 광고로 이동하면 파티션과 색인이 하이브로 표시되고 마지막으로 우리가 당신을 도울 의견 섹션에 모든 질문을 아래로 많은 지연없이 클래스와 함께 시작하자 파이프의 요구 사항 당신은이 사람이 DBMS라고합니다 그래서 당신이 있다고 가정 해 봅시다 내 속편을 사용하면 MS와 Microsoft가 같다고 가정 해 봅시다 바로 후편이며 오라클도 보유하고 있으므로 조직에서 지금 세 개의 데이터베이스를 사용하는 이유 그중 세 가지를 사용하면 트랜잭션을 위해 Oracle을 사용하고 있을지 모르겠습니다 당신이 지불을 알고있는 데이터 Exeter 나가기 진입로에서 내 속편을 사용하고있을 것입니다 제품 카탈로그 excetera 다른 사용자를 위해 Microsoft 속편을 사용하고있을 수 있습니다 목적에 따라 실시간으로 3 개의 데이터베이스가 있다고 가정합니다

데이터베이스는 이제이 사람들을 DBMS 또는 데이터베이스라고하며 그들에게 OLTP라는 이름이 있습니다 그들은 이제 온라인 거래 처리 시스템입니다 이것이 너무 기본적이라는 것을 알지만 나는 단지 당신에게 아이디어를 주려고 노력하고 있습니다 조직에는 여러 개의 OLTP 시스템이 있으며 충성도 P 시스템을 부를 수도 있습니다 전 세계에 배치 된 관리자가 귀하에게 와서 그래서 저는 직원입니다

제 이름은 Raghu입니다 Raghu 우리가하고 싶은 우리가이 모든 것에서 데이터를 수집하려는 것을 알고있는 것 데이터베이스를 작성하고 멋진 보고서를 작성하고 CEO에게 보여주고 싶습니다 무료 휴일을 보내서 좋은 보고서와 함께 내 CEO에게 깊은 인상을 남길 수 있도록 무료 휴가를 받으시거나 급여 인상을 받으실 수도 있습니다 이 시스템의 모든 데이터를 제자리에 넣고 실제로 그것을 지금보고하십시오 당신은 비즈니스 인텔리전스 녀석으로 알려진 녀석이 있습니다 비즈니스 인텔리전스는 데이터를 얻고 이해하는 부분입니다 파이 다이어그램을 아는 멋진 차트를 만들 수있는 모든 유형의 데이터 비즈니스 인텔리전스를 사용하여 성공을보고하십시오

BI 도구가 많이 있습니다 예를 들어 펜타 호 바이는 많은 도구를 알고 있습니다 괜찮아 생각 했으니 한 가지만하겠습니다 좋은 보고서와 모든 것을 만들 수있는 비즈니스 인텔리전스 도구 Oracle에 설치하고 Microsoft sequel에도 도구를 설치하겠습니다 내 속편 세 데이터베이스 모두 있지만 이것이 왜 그렇지 않은지 이해가되지 않습니다

모든 데이터베이스가 실시간 데이터베이스임을 알기 때문에 의미가 있습니다 그렇기 때문에 OLTP라고 부르며 고객에게 실제 서비스를 제공하고 있습니다 시간 나는이 데이터베이스에 불필요한로드를 원하지 않기 때문에 설치하면 그 위에보고 도구를 사용하여 데이터를 파기 시작하십시오 이 데이터베이스의 성능에 영향을 줄 수 있으므로 그렇게하고 싶지 않습니다 내가하는 일은 방에있는 코끼리를 데려 오는 것입니다

데이터웨어 하우스를 DW라고 부르며 OLAP 또는 온라인 분석 처리 시스템을 통해 ETL을 사용하여 데이터웨어 하우스에 DBMS 시스템이 있으므로 기술적으로 발생하는 것은 ETL 도구 사용하기 ETL은 변환로드를 추출하여 AR DBMS 시스템을 신속하게 데이터웨어 하우스라고하는 장소에 덤프 인증 된 Big Data Hadoop 아키텍트가되고 싶다면 telepath는 모든 Big Data Hadoop 설계자 과정을 제공합니다 자세한 내용은 아래 설명을 확인하십시오 이제 세션을 계속하겠습니다 데이터웨어 하우스는 실제로 멋진 용어입니다 멋진 용어가 아니라 기술 용어입니다

데이터웨어 하우스 란 데이터가 아닙니다 창고는 방대한 양의 데이터를 먼저 저장하는 장소입니다 포인트 번호 1 포인트 번호 2이 데이터는 액세스 준비가되어 있습니다 내 bi 도구에 bi가 있으면 내 컴퓨터에 직접 설치할 수 있습니다 데이터웨어 하우스와 훌륭한 보고서 전문가 등의 데이터와 데이터를 생성 할 수 있습니다 창고는 회사 내부에 있으며 공개 액세스 권한이 없습니다

이것은 개인 스토리지이기 때문에 모든 데이터를 수집하고 덤핑합니다 이 녀석으로이 녀석이 전체 데이터를 보유하고 있습니다 아주 간단한 조직이 내 데이터를 원합니다 이것은 꽤 오랫동안 당신이 알고있는 엔터프라이즈 조직에 간다 그들은 계속해서 수집하는 여러 OLTP 시스템을 갖게 될 것입니다 매일 밤 cron 작업 또는 원하는 모든 데이터를 데이터로 덤프 웨어 하우스는 지금 데이터웨어 하우스가 이력 데이터를 보유하므로 과거 데이터가 있음을 의미합니다 올해 데이터가 손실되었습니다 작년에는 많은 데이터를 알고 있고이 데이터를 통해 할 수있는 데이터 데이터웨어 하우스는 원하는 분석이 매우 간단하므로 분석 할 준비가 된 방대한 양의 데이터 저장 당신이이 일에 대한 공개 접근권을 말하면 데이터웨어 하우스의 플레이어에는 많은 회사가 있습니다

테라 데이터라는 사람이 있습니다 또한 corracle XR 데이터를 가지고 있습니다 이들은 모든 데이터웨어 하우징 회사입니다 si P Hannah Hannah Netezza greenplum 추가 트랙은 모두 데이터입니다 웨어 하우징 회사를 조직에서 구현하려는 경우 데이터웨어 하우스는 데이터가 있다고 말하고 내 데이터웨어 하우스를 구현하려는 데이터를 알고 있습니다

Tara 데이터에 따르면 이걸 가져 가서 실제로 회사에 설치하는 상자와 같은 라인을 그런 다음 데이터를 저장 한 데이터로로드하여 질문을 왜 내가 이것에 대해 이야기하고 있습니까?이 C에 대한 큰 문제는 무엇입니까? 이것에 대해 다루지 만 지금까지 내가 논의한 것은 세상이 어떻게 지금 일하면 모든 것이 여기에 좋아 보입니다 우리는 데이터를웨어 하우스에 덤프하여 보고서를 훌륭하고 행복하게 만들지 만 한 가지 중요한 문제는 문제는이 달러 달러 달러 돈 돈입니다 문제는 비용 측면 데이터웨어 하우징은 비용이 많이 드는 일입니다 예를 들어 Tara 데이터 솔루션을 구현하려는 경우 정직합니다 실제로 말하기에는 수백만 달러의 비용이 듭니다 또한 데이터웨어 하우징에서 일하는 사람들은 그렇게 싸지 않습니다 배경은 이것에 대해 논평 할 수있을 것입니다

그러나 그들은 그들의 주택이 있습니다 비용이 많이 드는 사건이므로 우리가 지금 이야기하고있는 역사가 들어갑니다 여기 허들 클러스터가 있습니다 조직에 하둡 클러스터가 있습니다 조직은 이미 하둡 클러스터를 가지고 있습니다 하둡 클러스터는 분명히 빅 데이터를 저장할 수는 있습니다

2006 년 어딘가 페이스 북이라는 회사가 하둡에 관심을 보인 페이스 북은 기본적으로 페이스 북이 있던이 큰 데이터 문제를 처리했다 2005-2006 등의 성장 단계 등 Facebook이 많이 증가하고 있음을 알고 있습니다 그 시점에서 사용자와 페이스 북은 당신이 무엇을 알고 생각 모든 것이 잘 작동하지만 실제로 큰 저장을위한 솔루션이 없습니다 데이터 및 빅 데이터 분석 및 Facebook은 Oracle Oracle에서 완전히 실행되었습니다 실제로 주요 백엔드 였고 Python Python plus Oracle이었습니다 페이스 북의 초기에 당신은 2006 년 어딘가에서 건축을 알고 있습니다 누군가 페이스 북에 왜 당신이 왜 그렇게 걱정하는지 알고 있습니다 데이터 저장 시장에는 하둡이라는 새로운 것이 있습니다

하둡 클러스터를 구현하면 사실상 무제한 데이터를 저장할 수 있습니다 하둡은 당연히 빅 데이터를위한 솔루션이므로 Facebook은 이 아이디어와 그들은 즉시 하둡 클러스터를 구현했습니다 실제로 페이스 북이 저장하고 분석 한 전체 데이터를 말하기 그들은 하둡으로 옮겼지만 2006 년에 어떤 문제가 있었습니까? 하둡 버전 강 또는 오래된 하둡 또는 원래 하둡에서 강 원래 Hadoop에 MapReduce 만있는 것이 무엇인지 알고 있습니다 Hadoop 클러스터의 데이터와 상호 작용할 수있는 유일한 방법은 MapReduce 프로그램을 작성하십시오 MapReduce를 작성해야합니다

페이스 북에 문제가되었습니다 매일 페이스 북 때문에 프로그램 Facebook의 요구 사항이었던 70,000 개의 쿼리 후속 쿼리를 실행해야했습니다 매일 데이터에 대해 7 만 건의 속편 쿼리를 실행해야했습니다 비록 그들이 느릴지라도 그들이 Oracle을 가질 때 일하고 있었다 오라클은 쉽게 작성할 수있는 전형적인 DBMS이기 때문에 어떻게 든 관리 할 수 ​​있습니다 7 만 건의 쿼리가 갑자기 전체 데이터가 하둡은 더 이상 오라클이 아니기 때문에 페이스 북 개발자들은 심각한 문제에 직면했다 문제는 광고가 이제 데이터가 Hadoop에 있고 Hadoop이 끝이 아닌 속편 이해 Hadoop 속편 이해 Hadoop은 MapReduce를 이해하고 MapReduce를 작성하려는 경우 당신이 해야하는 프로그램을 작성해야 자바를 배워야하는 프로그램 컴파일하면 jar 파일이 생성됩니다

속편이라면 쉽지 않습니다 개발자는 Java를 배우는 것이 당신을 위해 너무 재미있을 것이라고 믿습니다 속편 개발자 여러분, 우리는 속편쪽에 대해 더 많이 알고 싶어합니다 우리가 실제로 프로그래머가 아닌 스펙트럼은 갑자기 직원들과 페이스 북은 그들이 어제 우리의 속편 쿼리는 오늘 후속 쿼리 나는 무슨 일이 있었는지 쿼리를 실행할 수 없습니다 그래서 페이스 북은 당신에게 말했다 우리가 방금 모든 것을 하둡으로 옮겼습니다 Hadoop에서는 속편 쿼리를 실행할 수 없거나 우리가 할 수 없습니다

후속 쿼리를 실행하는 대안은 대안을 작성하는 것이 었습니다 속편 쿼리에 대한 MapReduce 프로그램이며 실제로는 광기입니다 간단한 선택 카운트 스타 쿼리를 위해서는 수백 줄의 코드를 작성해야합니다 자바를 컴파일하고 70,000 개의 쿼리를 상상해보십시오 그들은 우리가 해결책을 필요로한다고 생각했습니다 하둡에는 많은 구조 데이터가 있지만 불행히도 개발자는 그렇지 않습니다 우리가 할 수있는 데이터에 접근 할 수 있고이 하이브는 나중에 페이스 북에 의해 생성 그들은 최상위 레벨로 아파치에 하이브를 기부했다 프로젝트이지만 첫 번째 하이브 버전은 Facebook에서 출시되었으므로 다음 큰 정확히 무엇이 높은지 질문하십시오

데이터를 저장하고 있다고 상상하십시오 하둡 구조 데이터 저장은 영업이라는 데이터를 저장한다고 가정 해 보겠습니다 dot txt sales라고하는 텍스트 파일 dot txt이 텍스트 파일에 쉼표로 구분 된 값을 알고있는 구조는 주문 번호 제품 ID가 있습니다 blah blah blah 당신은 그것이 매우 큰 파일이라는 것을 알고 있습니다 이 파일을 분석하려면 실제로 하둡에 저장하십시오

MapReduce 프로그램을 작성하거나 지금 설치할 수있는 것은 안녕하십니까? 가장 높은 명령 행에 속편을 작성하는 쉘 또는 명령 행을 제공하십시오 바로이 테이블에서 카운트 스타를 선택하면 높은 속편을 씁니다 명령 줄 적중 반환 의미를 사용하여 쿼리를 실행하십시오 쿼리를 MapReduce 프로그램으로 변환하여 클러스터에서 실행하고 표시합니다 당신은 높은 결과는 속편 인터페이스 자신의 hadoo이며 그것은 아파치 hadoop 위에 기본 데이터웨어 하우징 프레임 워크 웨어 하우스 데이터웨어 하우스는 후속 인터페이스로 저장하는 것이 아닙니다

데이터웨어 하우스는 이제 이미 후편 인터페이스를 갖춘 거대한 스토리지입니다 설치하는 거대한 스토리지 인 Hadoop은 후속 인터페이스를 얻습니다 실제로 투자가 전혀없는 데이터웨어 하우스를 하이브 하이브의 장점은 무료입니다 속편 작성을 시작하면 할 수있는 속편을 사용하여 구조화 된 데이터에 액세스 할 수 있습니다 모든 정규 작업 테이블 생성 왼쪽 외부 조인 오른쪽 외부 조인 쿼리로 그룹화 blah blah blah 당신이 원하는 경우에 단지 빠른 정보 사람입니다 Telepath에서 인증 된 Big Data Hadoop 아키텍트가되어 모든 주요 데이터를 다루는 완전한 빅 데이터 하둡 아키텍트 과정 자세한 내용은 아래 설명을 확인하십시오 계속하겠습니다

이제 세션과 함께 하이브와 HBase의 차이점은 무엇입니까? 하이브는 지금 우리가보고있는 것입니다 HBase는 기본적으로 속속 데이터베이스가 아닙니다 그녀 위에 있지만 기억해 하둡 위에 기본 아파치 또는 속편 데이터베이스입니다 문제는 왜 누군가가 하이브를 사용해야하는지 예를 들어, 저는 배우고 싶지 않은 Java를 배우고 싶지 않습니다 MapReduce 배우기 나는 속편을 알고 프로그래머가 아닙니다

그것은 속편을 이해하기 때문에 자동으로 변환합니다 앉아서 Java와 MapReduce를 배울 필요가 없도록 MapReduce 속편의 논리와 그것이 작동합니다 당신이 Android라고 말한 것이 있다고 생각합니다 지금 휴대 전화는 Android 휴대 전화에서 당신은 분명히 휴대 전화를 구입하고 당신은 당신이 말하는 기본을 얻을 바로 전화 옵션 메시징 옵션 등 당신은 당신이 사람들에게 문자 메시지를 보낼 수 있습니다 Android 휴대 전화로 많은 일을 할 수 있지만 다운로드 할 수도 있습니다 예를 들어 택시를 타려면 앱을 다운로드하여 설치합니다 WHATSAPP을 확인하고 WHATSAPP을 다운로드 설치합니다 마찬가지로 하이브는 하둡 위에 설치 해야하는 도구이므로 생태계를 향한 생태계라고 불리는 이유는 말할 수있는 도구를 의미합니다

Hadoop 위에 설치되어 Android 운영과 같은 Hadoop에 대해 생각하십시오 시스템과 높은 flike uber 앱을 설치하십시오 그녀와 대화 할 수 있습니다 지금 하둡 보이 맨 위에 설치되었습니다 하이브가 올바른 또 다른 지점이므로 첫 번째 질문은 하이브를 얻는 곳입니다

클러스터 내부에 설치되어 있습니까? 클러스터 외부에 있습니까? 머리 나는 당신이 어디에 하이브를 설치하고 있는지 모르겠다 지금 당장 이해해야 할 점은 하이브에 스토리지 하이브에는 스토리지가 없습니다 예를 들어 거래 점 XLS라고합시다 거래 점 XLS라는 파일을 복사하는 스프레드 시트입니다 내 Hadoop에서 발생하면 데이터 노드에서 블록으로 나뉩니다

데이터를 복사 할 때 데이터에 발생하는 일 내 하둡에서 블록으로 나뉘어 있으므로 테이블을 만들 때 하이브 데이터를로드합니다이 데이터를 참조하십시오 데이터 노드 자체 스토리지가 매우 중요하지 않습니다 하이브는 원본 데이터가 누워있는 데이터를 투영합니다 데이터 노드의 블록으로 그리고 하이브에서 테이블을 만들 때 데이터 구조를 제공하여 데이터를 테이블이 깨끗하므로 하이브는 필요한 두 번째 지점에서 스토리지를 사용하지 않습니다 내가 여기 앉아 있고 랩톱이나 데스크톱 하이브는 클라이언트 쪽 응용 프로그램입니다 당분간 아내가 설치되었다는 의미에 대해 더 설명하겠습니다 Hadoop 클러스터가 아닌 랩톱에서 이제 약간의 변형이 있습니다

그러나 당분간은 이렇게 가정하고 노트북은 분명히 클러스터에 연결되어 Hadoop 클라이언트 라이브러리가 있으므로 랩톱에서 Hadoop 클러스터에 액세스 할 수 있습니다 하이브는 클라이언트 측 응용 프로그램이므로 노트북은 하이브 셸을 열고 테이블을 생성한다고 말하면 일부를 줄 것입니다 원하는 스키마를 스키마로 지정하면 데이터를 탁자 이제이 데이터를 삽입하는 것은 무엇입니까?이 블록은 내가하는 것입니다 당신이 할 때 아무것도 삽입하지 않는다고 말하는 하둡에서이 블록을 참조 할 데이터를 삽입하면 내가 할 일을 쿼리 또는 일부 후속 쿼리로 그룹화한다고 말하십시오 jar 파일을 바로 Hadoop 클러스터에 보냅니다 하둡에게는 하이브라는 것이 없습니다

하둡의 경우 그것은 단지 MapReduce 프로그램입니다 랩톱에 하이브를 설치하고 MapReduce를 모르기 때문에 왜 노트북에 하이브를 설치합니까? 그리고 당신은 속편 개발자이며 구조 데이터가 있음을 알고 있습니다 하둡 데이터에서 테이블을 만들고 쿼리를 수행하여 설치하려는 경우 노트북에 하이브라고 말하십시오 MapReduce 프로그램과 동일한 기능을 자동으로 작성합니다 jar 파일은 Hadoop의 관점에서 클러스터로 보냅니다 클러스터 그것은 일반적인 MapReduce 프로그램입니다

이해합니다 저는 MapReduce를 이해합니다 MapReduce를 쓸 수 있습니다 jar를 실행하십시오 항아리를 만들고 동일한 저장소를 실행한다고 말하십시오

즉, 자체 저장소가 없거나 하둡의 데이터에 액세스하고 프로젝션을 제공하는 모든 것 지금 작업하기가 쉽도록 블록 작업을하거나 전체 데이터를 테이블에서 볼 수 있으면 쉽게 데이터 또는 샌드 바로 쿼리를 작성하는 방법입니다 하둡에 저장된 구조 데이터 하이브 언어는 하이브라고해도 하이브는 당신의 속편을 이해합니다 쿼리 언어 또는 HQ라고 부르는 것은 SQL과 매우 유사하므로 속편 개발자라면 속편 쿼리를 쉽게 알 수 있습니다 하이브 하이브 도입 작업은 데이터웨어 하우스 인프라입니다 하둡 위에 구축되어 있습니다

하이브 QL 안녕하세요 사용이라는 언어와 같은 속편을 사용하여 데이터의 구조 데이터 처리 및 스토리지 검색을위한 MapReduce 및 HDFS 데이터가 HDFS 처리이며 MapReduce 및 여기에는 작은 점이 있습니다 정확히 MapReduce가 아니지만 시간은 MapRe로 유지합시다 하이브 사용의 장점 하이브 테이블에 데이터를 가져올 수 있다는 의미에서 ETL 도구로 사용할 수 있습니다 데이터 저장소를 영구적으로 수정하여 쿼리 기능을 제공하고 하이브는 실제로 분석 전문가 커뮤니티에서 잘 사용합니다 sequel은 큰 데이터 세트를 처리 할 수 ​​있으며 이러한 모든 필터 그룹에 필터 조인을 수행 할 수 있습니다 지도 위에 속편을 추가하고 지금 물어 보면 줄이십시오

에 의해 생성 된 MapReduce 코드 안녕히 볼 수 없으므로 MapReduce 코드가 생성되었습니다 하이브에 의해 당신은 단지 항아리를 볼 수 없습니다 단지 항아리 파일을 얻을 것이다 파일 당신은 당신이 지금 가장 중요한 파일을 실행하는 것을 볼 수 있습니다 당신이 기억해야 할 점은 하이브가 느릴 것으로 예상된다는 것입니다 궁극적 으로이 MapReduce는 Oracle 또는 내 속편과 같지 않습니다 일반적으로 쿼리를 작성할 때 모든 DBMS 시스템에서 당신은 초 안에 결과가 마이크로 초에서 높지 않은 것을 기대할 것입니다 당신은 때때로 쿼리를 작성 왜 4 시간 5 시간 걸리는 쿼리를 보았 을까 당신은 그것이 단지 환상이라는 것을 알고 있기 때문에 그들은 과대 광고를 사용하지 않기 때문에 이것은 매우 과대 광고를 사용하지 말아야 할 중요한 점은 데이터가 기가 바이트를 닫지 않습니다 이는 빅 데이터가없는 경우를 의미합니다

오 그래 왜 하이브를 사용 하는가? 스키마를 찾지 못하거나 스키마를 가져 오는 것이 어렵다 또는 지금 불가능한 점은 하이브에 접근 할 때 테이블 hi는 데이터베이스와 테이블의 생성자에 대해 언제든지 작동합니다 데이터가있는 경우 테이블에 스키마가 있어야하는 테이블을 정의하고 있습니다 데이터를로드 할 때 포인트가 없다고 가정 해 봅시다 어떤 유형의 데이터를 얻는 중 텍스트 데이터를 얻는다고 가정 해 봅시다 지금은 그 데이터에서 데이터에 대한 구조를 찾을 수 없습니다 그리고 나는 당신이 원시 데이터를 일반 자유형으로 얻는다고 상상한다고 말하고 있습니다

자유 형식의 텍스트 데이터에서 텍스트를 찾을 수 없으므로 찾을 수없는 구조를 어떻게 찾을 수 있습니까 해당 데이터 위에 하이브를 사용할 수 없으므로 구조해야합니다 데이터에 대한 구조를 찾을 수있는 곳에 하이브를 사용하십시오 쉼표로 구분 된 값 공백으로 구분 된 값 열으로 구분 된 값 또는 JSON 파일 XML 파일은 반 구조화 된 데이터까지 모두 포함 할 수 있습니다 인증 된 Big Data Hadoop이 되려면 간단한 정보를 입수하십시오 Telepath의 아키텍트는 완벽한 Big Data Hadoop 아키텍트를 제공합니다 모든 주요 개념을 다루는 코스이므로 자세한 내용을 확인하십시오

아래 설명은 이제 세션을 계속하겠습니다 이제 다음 경우는 우리는 몇 초 안에 응답이 필요하며 대기 시간이 짧은 응용 프로그램은 속도가 느릴 것으로 예상되며 더 빠른 솔루션을 찾고 있다면 사용하지 마십시오 우리의 DBMS가 해결할 수 있다면 우리의 하이브 매우 중요한 포인트에 시간을 투자하지 마십시오 하이브는 DBMS를 대체하지 않으며 DBMS 때문에 괜찮습니다 시스템은 실시간 시스템이며 하이브는이를 대체 할 수있는 것이 아닙니다 DBMS가 대부분의 문제를 해결할 수 있다면 하이브를 사용하지 마십시오 하이브는 특히 방대한 양의 구조 데이터를위한 것으로 테이블의 테이블 크기는 3 테라 바이트입니다 속편은 시간이 걸리더라도 매우 쉽습니다

결과는 다음과 같습니다 집 사용 사례가 나오는 곳이므로 통역사처럼 하이브에 대해 생각하십시오 그것은 당신이 Hadoop에 피크 MapReduce의 속편을 쓰는 번역기입니다 하둡은 개발자에게 우리에게 테이블을 보여주는 결과를 제공합니다 하둡에 대한 모든 것이 테이블에 동일합니다

모든 것이 MapReduce이고 높음 속편과의 차이점과 차이점은 무엇입니까? 속편 하이브에서 속속 같은 쿼리와 유사합니다 실제로 SQL 92 프레임 워크를 기반으로하며 다음과 같이 말하는 것이 안전합니다 기능은 주로 전공의 속편과의 차이점을 말하고 있습니다 차이점은 하이브 쿼리가 전통적인 것이 아니라 하둡에서 실행된다는 것입니다 데이터베이스는 하둡 외부에서만 하이브를 설치할 수 없음을 의미합니다 HDFS를 통해 하이퍼 스케일로 수행 할 수없는 대규모 데이터 세트를 처리 할 수 ​​있습니다

우리의 DBMS는 높은 쿼리의 내부 실행은 일련의 자동으로 MapReduce 작업을 생성하여 다음 질문을 자연스럽게 나는 안녕을 이해하지만 하이브를 미세 조정할 수 있습니까? 퍼포먼스를 향상시킬 수 있습니까? 하이브로 무언가를 할 수 있습니까? 예, 이제 모든 하이브 쿼리가 MapReduce 작업으로 변환됩니다 왜 우리가지도를 쓸 수 없다 모든 것을 MapReduce로 변환하고 있으므로 MapReduce를 작성하지 마십시오 왜 하둡의 내부를 잘 이해하고 있는가? 프레임 워크는 MapReduce를 작성해야합니다 속편 엔지니어는 신속하게 하이브를 작성할 수 있습니다 MapReduce를 작성하려면 이제 스크립트를 사용해야합니다

Java를 배워야합니다 또는 Python 또는 Ruby 또는 c-sharp를 사용하면 논리를 구현하거나 MapReduce 프레임 워크를 사용하면 커스텀 매퍼 커스텀 리듀서를 작성해야합니다 패키지에는 단지 모든 복잡성 오류를 해결하는 jar 파일이 있습니다 여기서는 아무 것도 디버깅 할 필요가 없으므로 테이블을 작성하여 쿼리를 작성하십시오 그리고 그것은 그것이 작동하는 방식입니다

그래서 다음 요점은 지금 말하는 것입니다 현실 세계에 대해 알았으니 안녕하세요 배운다고 가정 해 봅시다 텔레파시 과정에 참여하고 마스터하면-내가 가르친 것은 내가 가르쳤다 하이브는 하둡의 후속 인터페이스입니다 당신은 그 점을 이해하고 나서 실제 프로젝트로갑니다 당신은 프로젝트에 가서 내가 하이브 전문가인지 알고 하이브 전문가 나는 하이브를 잘 알고 있습니다 이 사람들은 당신이 하이브를 사용할 수 있거나 할 수있는 것을 알고 있다고 말할 것입니다

hi +를 사용하십시오 impala를 사용할 수 있습니다 spark sequel을 사용할 수 있습니다 Phoenix를 사용할 수 있습니다 내가 방금했을 때 나는 당신의 마음을 비례 적으로 불렀습니다 실제 프로젝트에서 실제 프로젝트를 확인하고 하둡에 대한 데이터가 있는지 확인하십시오 그들이 당신에게 높은 것을 주거나 당신에게 더하기 일을 줄 속편 도구를 줘 또는 임팔라에게 똑같이 불꽃을 주거나 피닉스와 당신은 오 세상에 비밀 인터페이스 인 하이브 만 있습니다 이 사람들은 간단한 불꽃에 대해 이야기하고 있기 때문에 지금 딜레마에 있습니다 피닉스와 동일하고 후속 쿼리를 작성하면 실행됩니다 이 모든 플랫폼에서 같은 방식으로 쿼리로 그룹을 작성합니다

높은 플러스 일은 실행됩니다 Impala는 동일한 실행을 발생시킵니다 피닉스는 또한 그것을 실행할 것이므로 실제 질문은 이것들이 무엇입니까? 도구 바로 당신에게 실제 정보입니다 그래서 하이브 참조 원래 도구는 처음부터 왔으므로 하이브는 첫 번째 복수 자이므로 첫 번째 복수자는 세상에 온 최초의 사람이므로 하이브가 왔을 때 사람들이 행복했기 때문에 사람들은 지금 환상적이라고 말했습니다 후속 인터페이스가있어 쿼리를 작성할 수 있으며 쿼리가 무엇을 실행하는지 알고 있습니다 끔찍하지만 시간이 지남에 따라 사람들은 정말 좋아하지 않았습니다 5 명이 높거나 높았다 고 말했지만 문제는 당신이 다른 날에 내가 하루에 걸린 쿼리를 쓴 알고 알고 쿼리가 느려 내가 정말 하이브를 좋아하지 않는 결과를 줘 그때 Hortonworks라는 회사가 하이브를 제안하기 시작했고 지금 여기서 일어나는 일은 Hortonworks hadoop 클러스터에 액세스하면 하이브 쿼리를 작성하면 높은 쿼리가 장소 참고 MapReduce 원래 고속도로 고 유량 MapReduce Hortonworks 하이 플러스 더하기 고속도로 그래서 이것은 무엇입니까 이것은 프레임 워크 아파치 프레임 워크입니다 아마도 당신이 관심이 있다면 더 깊이 파고들 것입니다 MapReduce가 더 빠르므로 자세한 내용을 알고 싶지 않습니다

나는 당분간 당신에게 몇 가지 추가 정보를 제공하고 있습니다 단계는 문제를 극복하기 위해 만들어진 프레임 워크임을 이해 MapReduce에서 mapreduces는 정말 느립니다 MapReduce는 일반적으로 느립니다 사람들은 일과 일이라는 것을 만들고 매퍼와 감속기를 사용합니다 기름이지만 이것은 MapReduce보다 훨씬 빠르므로 단계는 힌디어 단어 속도를 나타내며 인디언에 의해 만들어졌습니다 MapReduce의 레벨을 통해 Hortonworks가 무엇을했는지 말할 수 있습니다

Hortonworks는 클럽 하이브와 지불금을 지불하여 당신이 Hortonworks 클러스터에 있다면 그들이 당신을 맛보고 직업을 볼 수 있다고 실행 하이브 쿼리를 작성 Hortonworks가이 작업을 홍보하더라도이를 사용하여 MapReduce 작업 실행을 볼 수 없음 이것은 오픈 소스를 첨부하고 있습니다 Hortonworks는 이것을 홍보하고 그들은 거기에 그들의 쿼리가 빠르기 때문에 첫 번째 복수 자라고 말합니다 오리지널 하이브는 느리게 지내고이 남자는 대화식입니다 쿼리는 더 빠르지 만 실시간은 아니므로 하이브를 쓰는 경우 사용하는 쿼리 또는 Hortonworks 클러스터는 실행 엔진으로 유지되며 더 빠르지 만 실시간이 아니거나 더 빠르지 않습니다 Hortonworks가 다른 회사가 있기 전에도 이것을 시작했을 때 클라우드 시대라고 불리는 클라우드 시대의 회사 또는 그들이 그들은 임팔라 임팔라라는 것을 발명 했습니까? 하이브 위에 다시 지어졌습니다 Impala는 얼굴 속편입니다

임팔라 위에 속편 쿼리를 작성하면 Empire Rd라는 악마를 사용하여 실행하며 MapReduce를 사용하지 않습니다 이것을 사용하지 않고 독점적 인 Impala 억제제를 사용합니다 그래서 이것은 Cloudera에 의해 홍보되며 이제 대화식입니다 Hortonworks는 안녕하세요 플러스 이것은 더 빠른 clowder라고합니다 Impala가 더 빠릅니다 지난 4 년 동안 전쟁이 계속되고 있음을 아무도 모르지만 그것은 플러스 플러스 일이거나 조종사에서 다시 당신을 위해 찾는 사람 인터페이스입니다 Houghton이 클러스터를 사용하지 않으면 차이가 있습니다 클라우드에 있거나 클러스터 실행이라는 악마에 의해 수행되는 경우 임팔라와 스파크 스파크라는 사람이 있는데 얼굴에 속편이 있습니다 spark sequel에 쿼리를 다시 작성하면 spark sequel이라고합니다

속편이 스파크로 변환되고 거의 실시간이므로 이 속편이 더 빠릅니다 체재하지만 Hortonworks에서는 내가 원하지 않는다고 말할 수 있습니다 MapReduce를 원하면 엔진을 전환 할 수 있으므로 모두 추가됩니다 추가 정보가 있지만 정보를 잘 알고 있으므로 Phoenix가 속편이없는 속편 인터페이스 즉, HBase는 속속 데이터베이스가 아니며 HBase는 그렇지 않습니다 속편을 이해하므로 HBase의 언어를 모른다면 시작할 수 있습니다 피닉스 당신은 그것의 언어로 변환 될 속편 쿼리를 작성합니다 HBase는 원래의 고급 Map Reduce가 배치 결과를 보여줍니다 매우 느린 날을 처리하고 Impala는 비슷한 대화 형이지만 임팔라는 Cloudera라는 특정 구절이 있습니다

클라우드 시대의 가장자리와 Hortonworks의 Impala 패스는 동일하게 두 번째로 통과합니다 SPARC 프레임 워크 피닉스는 다른 안녕 사이에 친구가 있으면 잘못된 기반입니다 예를 들어 아내라는 것이 있고 하이브라는 것이 있습니다 서버 하나에 하이브 서버 2 + B 라인이라는 것이 있습니다 이 용어는 순수한 무엇입니까 하이브 서버 1의 의미는 무엇입니까? 하이브 서버 2와 B 라인 C를 의미하므로 이것이 당신이해야 할 일입니다 기술적 인 관점에서 볼 때 원래 하이브 만 있었고 이 대화 형과 함께 클라이언트 쪽 응용 프로그램입니다 쉘은 원래 하이브라고 부르는 원래 하이브를 의미합니다

개발자 인 경우 랩탑 설치를하는 응용 프로그램 하이브 당신은 명령 줄에 명령 줄을 얻는다 쿼리에 대한 테이블 blah blah blah 그냥 작동합니다 서버 전용 클라이언트가 없으며 이것이 내 그림에서 설명한 것입니다 또한 나는 당신에게 하이브가 단지 클라이언트 측 애플리케이션이므로 공급 업체 직원의 Huiber가 정말 행복했을 때 맙소사, 정말 대단해서 껍질을 얻을 수 있고 명령과 우리는 좋은 하이브와 함께 일할 수 있지만 나중에 사람들이 시작했습니다 당신의 데이터베이스를 어떻게 연결합니까? Oracle 데이터베이스 Oracle 데이터베이스는 어떻게 연결합니까 Oracle 데이터베이스 또는 Microsoft sequel 데이터베이스와 함께 사용하는 대상 내 것과 같은 클라이언트 쪽 도구를 연결 후속 워크 벤치 또는 바로 연결하려면 클라이언트 쪽 도구가 필요합니다

JDBC 또는 ODBC를 올바르게 사용하십시오 예, Oracle이 실행되는 서버가 있고 Oracle 클라이언트가 필요합니다 사람들이 생각하는 것이 괜찮아서 모든 것이 멋지다 왜 하이브에 대해 속편 클라이언트에서 너무 높게 연결할 수 없습니까? 하이브 서버 하나가 왔을 때의 명령 줄입니다 guy는 일반적인 후속 클라이언트에서 JDBC 또는 ODBC 연결을 허용합니다 PI 서버 1은 Hadoop 클러스터에서 서버가 실행 중임을 의미합니다

hi-oh server 1은 현재 Hadoop 클러스터에서 실행중인 서버입니다 노트북을 높이 설치하면 명령 프롬프트를 열고 쿼리를 입력 할 수 있습니다 또는 일반 속편 클라이언트 도구를 사용하여 하이브에 연결할 수 있습니다 서버와 모든 활동을 올바르게 수행하므로 서버 1 옵션은 다음과 같습니다 후속 클라이언트에서 직접 하이브로 JDBC 연결을 작성할 수 있습니다 원하는 쿼리를 수행 할 수있는 테이블에 삽입 할 수 있습니다 다시 클라이언트를 매우 쉽게 직접 실행하면 명령을 사용할 필요가 없습니다

프롬프트 명령 프롬프트를 사용할 수 있으므로 사람들이 정말 기뻤습니다 접속할 수있는 서버가 많고 쿼리를 실행할 수 있습니다 동시성 부족은 높은 동시성 또는 일관성이 없음을 의미합니다 서버 하나는 여러 사용자가 세션을 생성하여 세션을 만든 경우를 의미합니다 세션 데이터 지속성 데이터 동시성 문제를 처리 할 수 ​​없습니다 PI Server 2의 상위 서버 2가있는 곳도 있습니다

허용 JDBC ODBC 연결은 동시성을 제공하며 새로운 클라이언트 측이 있습니다 명령 줄 도구 인 beeline은 서버입니다 서버 1의 기본적인 차이점은 JDBC ODBC이지만 다중 JDBC ODBC를 의미하는 동시성을 제공합니다 연결은 가능하지만 하이브로 작업 할 수는 있지만 하이브 CLI와 새 CLI를 여전히 beeline이라고하며 이전 CLI를 지원합니다 새로운 CLI를 beeline이라고합니다

beeline은 실제로 고객입니다 컴퓨터 설치 beeline 클라이언트로 갈 수 있도록 속편 클라이언트처럼 설치할 수 있습니다 거기에서 나는 하이브 서버에 연결 요청을하고 시작할 수 있습니다 하이브 서버에서 클러스터 내부에 설치되도록 하이브에서 작업 아내의 질감은 이제 사람을 볼 수 있고 그는 하이브 쿼리를 사용하고 있습니다 지금 당신이 사람이라면 당신은 안녕 승무원 CLI와 상호 작용할 수 있습니다 이것이 바로 CLI 광산이 B 라인이 될 수 있음을 의미합니다 클라이언트 또는 일반 명령 줄 안녕 셸 안녕하세요 쉘을 보여 드리겠습니다 후속 클라이언트가 있음을 의미하는 대화식 쉘 또는 JDBC ODBC 거기에서 당신은 연결할 수 있습니다 또는 웹 UI 안녕하세요 또한 웹 UI 등을 제공합니다 CLI를 직접 사용하는 경우 화살표를 살펴보십시오

CLI를 사용하는 경우 하이브를 칠한다는 의미입니다 JDBC etc를 사용하는 경우 테이블 등을 직접 작성하십시오 세션은 높은 서버에 의해 처리되므로 서버도 높습니다 상위 서버 2의 주요 목적은이 다중 세션을 처리하는 것입니다

JDBC woody PC를 통해 사용자가 만든 이유는 화살표 CLI는 높은 JDBC ODBC를 직접 호출하고 있음을 의미합니다 거짓말을 보거나 JDBC를 사용하도록 하이브 서버를 통해 연결 ODBC는 이제 어디에 하이브 서버를 설치할 것인가? 하둡 클러스터 내부에 설치해야합니다 하둡 클러스터는 또한 하이브 서버가 외부에있는이 그림을 참조하십시오 이 그림에서 하둡 클러스터는 당신이 ODBC를 사용하거나 하이브를 통해 남용하는 경우 CLI 직접 하이브입니다 서버이지만 다시 세션은 하이브 서버에 의해 처리되지만 궁극적으로 그림에서 지금 안녕 그것은 하둡이라는 것을 분명히 보여줍니다 클러스터가 분리되어 내부에 PI Server를 설치할 필요가 없습니다 대부분의 경우 외부에있을 수있는 하둡 클러스터 이제 하이브 아키텍처 내부에서 컴파일러를 볼 수 있습니다

옵티 마이저 실행 프로그램이지만 데이터가 어디에 있는지 어떻게 알 수 있습니까? 메타 데이터는 데이터베이스 또는 데이터웨어 하우스 또는 필요한 시스템에 대해 무엇을 메타 데이터를 저장하여 메타 데이터에 대한 내용을 저장합니다 메타 스토어 서비스 란 메타 스토어 서비스 란 메타 데이터를 처리하기 위해 서비스가 실행 중입니다 메타 데이터 란 무엇입니까? 테이블 정의 데이터베이스의 정의 테이블의 스키마 메타 데이터를 저장하면 메타 데이터를 어딘가에 저장해야합니다 이 메타 스토어 서비스에서 기본적으로 하이브는 포함 된 메타 스토어로 메타 데이터를 표시합니다 Derby 데이터베이스에 내장되어 있으므로 기본적으로 높은 다운로드 및 설치는 Apache라는 데이터베이스와 함께 제공됩니다

Derby Apache Derby는 데이터베이스이며이를 사용하여 저장할 데이터베이스가 있습니다 ember dead meta store 내장 메타라고하는 메타 데이터가 지워짐 저장은 기본적으로 다운로드하고 설치하면 기본적으로 의미합니다 메타 데이터를 저장할 장소는 기본적으로이 Apache Derby와 함께 제공됩니다 데이터베이스와 B를 사용하여 필요하지 않은 메타 데이터를 저장하기 시작합니다 모든 것이 정상적으로 구성 되므로이 임베디드 메타 스토어가 좋습니다

당신이 말하고 있기 때문에 내가 다운로드하고 바로 설치하면 데이터베이스와 함께 제공되며 데이터베이스에 메타 데이터를 저장합니다 모든 것이 좋지만이 Derby에는 Derby 데이터베이스가 하나의 단점이 있습니다 인스턴스 데이터베이스는 한 번에 하나의 연결 만 허용합니다 내장 된 hive 메타 저장소를 사용중인 경우 단 한 사람 만이 hi에 액세스 할 수 있으므로 단점은 모자이므로 하이브 예제를 위해 자신의 데이터베이스를 메타 데이터 스토리지로 구성 할 수 있습니다 속편 그래서 이것은 우리가 생산에서 무엇을하는지 우리가 생산에서 의미하는 것 우리는 지금 안녕을 다운로드하고 설치할 것입니다

B를 사용하여 메타 데이터를 저장하지만 자동으로 작동하지만 B를 사용하여 메타 데이터를 올바르게 저장하면 한 번에 하나의 연결 만 허용합니다 여기서 B는 하나만 허용합니다 우리가하는 일은하지 않습니다 내 속편처럼 내 속편에 메타 데이터를 저장하는 방법을 묻습니다 최신 버전의 하이브는 업데이트를 허용하지만 다른 모든 사용자는 hi에 액세스 할 수 있습니다

버전 또는 파일은 기본적으로 업데이트를 허용하지 않습니다 Hadoop Hadoop은 Hadoop에서 많은 시스템을 한 번 읽은 쓰기입니다 업데이트가 없습니다 데이터를 바로 복사하십시오 데이터를 삭제하십시오

데이터를 다시 복사하십시오 그것은 모두 데이터를 쓰고 여러 번 읽는 것이지만 최신 버전입니다 하이브를 사용하면 선택적으로 업데이트 할 수 있습니다 데이터 노드에서 블록의 위치를 ​​참조하여 기본적으로 할 수있는 방법 그것은 당신의 데이터가 어디에 있는지 이해할 수 있고 따라서 그에 따라 할 수 있는가 클라우드에서 하이브를 연습하고 있다면 클라우드 RVM에서 하이브를 연습하는 경우 IBM에서 임베디드 메타를 사용하고 있습니다 즉, 내부에 더비가 있고 모든 메타 데이터를 저장한다는 의미입니다

매우 간단하지만 회사에 가서 높은 일을 시작하면 메타 데이터는 내 속편과 같은 별도의 데이터베이스에 저장됩니다 두 가지 유형의 메타 데이터 저장소가 가능하므로 사용자가 작성하는 경우 드라이버는 드라이버라는 사람이 쿼리를 받아들입니다 그림에는 표시되지 않지만 드라이버가 있으며 드라이버가 컴파일러라는 컴파일러라는 사람은 메타 저장소를 확인하여 메타 데이터와 쿼리를 컴파일하면 옵티마이 저가이를 최적화하여 실행 된 실행 프로그램은 MapReduce이고 MapReduce는 클러스터 1 단계 사용자를 현명하게 쿼리하면 쿼리가 확인되고 첫 번째 단계는 쿼리를 컴파일하는 것입니다 이제 쿼리를 컴파일하지 않습니다 메타 데이터가 필요하므로 메타 스토어 메타 데이터를 확인하십시오

쿼리를 컴파일하는 메타 데이터를 얻은 후 메타 데이터에 대해 저장하고 옵티 마이저라는 구성 요소가있어 MapReduce 코드를 최적화하므로 더 나은 성능을 발휘 한 다음 executor라는 다른 구성 요소에 제공 할 수 있습니다 executor는 일반적으로 MapReduce 프로그램입니다 MapReduce 엔진을 의미하며 쿼리를 실행하고 결과를 표시합니다 다시 두 가지 상황이 있습니다 이것은 대부분 실용에서 나옵니다 소규모 Hadoop 클러스터가있는 경우 3 개의 서버 나는 3 개의 데이터 노드 4 개의 데이터 노드 등을 의미하므로 매우 작습니다

클러스터 권한이며 일반적으로이 클러스터 클러스터는 몇 사람 그래서 당신이 여기 앉아 있다면 당신은 컴퓨터 전체 하이브가 하이브 서버에 여기에 설치되어 모든 것이 실행됩니다 왜 작은 클러스터이기 때문에 여기에서 실행 중입니까? 여기에 설치 한 다음 연결하는 데 아무런 의미가 없습니다 일반적으로 다른 사용 사례를 이야기하고 있습니다 다른 사용 사례를 이야기하고 있습니다 주문에 대한 3-4 개의 데이터가있는 소규모 하둡 클러스터 왜 당신은 작은 리프팅 흠을하지 않을 것입니다 왜 작은 하둡을 생성합니까 클러스터는 개념 증명을위한 것일 수 있습니다

이 경우에는 모든 작업 부하가 발생하므로 Hadoop 클러스터 전체 하이브 패키지 또는 컴퓨터에 있음 안녕 서버 안녕 CLI 하이브로 시작하는 무엇이든 잡은 것은 컴퓨터 클러스터에 아무것도 없습니다 왜 또는 내 유일한 친구인가 이것에 액세스하면 별도의 클라이언트 서버가 필요하지 않습니다 클러스터가 매우 작기 때문에 모든 패키지를 컴퓨터에 설치해야합니다 컴퓨터에 sequel client를 설치하고 여기에서 JDBC 연결은 등을 연결하지만 모든 것은 작은 Hadoop 클러스터이기 때문에 컴퓨터에서 매우 큰 Hadoop 클러스터의 큰 Hadoop 클러스터 흠 하둡 클러스터는 수천 개의 데이터 노드에 게이트웨이 노드 여러분, 게이트웨이 노드가 무엇인지 들어 보셨나요? 당신들은 이것에 대해 들었습니다 이 사람은 Hadoop 흠과 연결되어 있고 Linux 시스템입니다 여기에 리눅스 머신이 있다고 상상해보십시오

하둡 등반 여기에 당신이 말한 것을 여기 서버에서 가질 것입니다 그리고 어쩌면 돼지 모든 것이 여기에 설치 될 것이고 당신이하는 일은 당신이 여기에 앉아 있다면 바로 여기에 앉아 있다면 랩톱에 여기에 설치하지 않은 랩톱은 랩톱입니다 이 사람이 여기 앉아 있어요이 사람이 여기 할 수있는 것은 이 기계에 SSH로 연결할 수있는 여러 가지 작업을 수행 할 수 있습니다 그는이 기계에 로그인하고 여기에서 그는 입력 할 수 있습니다 그는 명령을 얻을 프롬프트는 이제 다른 사람이 여기에 앉아 클러스터에서 작업을 시작합니다 노트북 확인 여기에 속편이 두뇌 작업대라고 말 했어요

이제 SQL 클라이언트가 후속 워크 벤치를 열면 여기에 연결됩니다 게이트웨이 노드 게이트웨이 통지는 무엇입니까? 아무것도 아니라 서버입니다 그것은 당신과의 중간 역할을합니다 직접 로그온하지 않는 대규모 Hadoop 클러스터의 Hadoop 클러스터 당신은 당신의 클러스터를 볼 수 없을 것입니다 그것은 엄격히 금지되어 있습니다

이 게이트웨이에 연결하지 않은 것만으로 클러스터에 액세스 할 수 없습니다 여기에서 CLI를 선호한다면 무엇이든 할 수 있습니다 이 Sergei에 SSH를 생성하여 로그온하면 게이트웨이에 있습니다 CLI는 어떻게 당신이 CLI를 좋아하는지 또는 당신이 후속 클라이언트를 가지고 있으면이 게이트웨이와 이것에 대한 세부 정보를 제공합니다 거기에서 게이트웨이에 연결하고 오른쪽으로 nazca lester에 연결합니다 모든 클라이언트 패키지는 실제로 게이트웨이 노드에 설치되어 있습니다

당신이 로고 중 하나를 선택할 수 있도록 포인트 게이트웨이 노드에 로그인하여 게이트웨이 노드에 로그인하고 명령을 엽니 다 프롬프트하고 hit hi라고 말하면 작업을 시작하는 하이브 셸이 표시되거나 하이브 서버가 실행되는 후속 작업 워크 벤치가 있습니다 게이트웨이 노드 양호 후속 워크 벤치가 Ohio 서버와 클러스터를 연결합니다 안녕의 인터페이스는 그냥 입력 hi를 입력하고 이것은 하이브 쉘이므로 하이브의 명령 행 인터페이스입니다 당신이보고있는 하이브의 대화 형 쉘은 이제 일단 쉘에 있습니다

입력 한 대부분의 명령은 하이브 셸로 소개 할 필요가 없습니다 명령은 속편 명령이고 대부분은 속편에 익숙하기 때문에 예를 들어, 아마 당신이에 로그온하면 아마도 첫 번째 명령을 말할 수 있습니다 이 시스템은 가장 먼저 입력 할 명령은 show database입니다 코드가 작성된 모든 데이터베이스를 참조하십시오 하이브 작업을 시작해서 내가하려는 것은 create라고 말할 것입니다 데이터베이스 Belle이라고 말하면 데이터베이스를 표시하면 거기에 있습니다

당신이 그것을 사용하려는 경우 지금 데이터베이스 Cordell del을 사용한다고 말하면 del을 사용한다고 말하면 데이터베이스가 변경되어 이제는 지금까지 델 파인이라는 데이터베이스를 사용하여 이제 이것들은 규칙적인 것들입니다 지금 샘플 시나리오를 보시고 우리는 단지 벌집에 대해 말하기보다는 문제를 해결하는 방법을 사용할 수 있습니다 샘플 시나리오를 보도록하겠습니다 작업 할 데이터를 보여 드리겠습니다 그래, 내 바탕 화면에 거래라는 파일이 있습니다 이 파일을 TX n s1이라고합니다

이 파일을 열면 트랜잭션 데이터입니다 이것은 당신에게 아이디어를 제공하기 위해 데이터가 어떻게 보이는지입니다 이제이 데이터를 설명해야 할 경우 하나의 레코드를 선택하여 하나의 레코드이므로 모든 레코드가 쉼표로 구분 된 값임을 알 수 있습니다 그래서 이것은 첫 번째 열의 구조를 가지므로 이것은 거래 데이터입니다 소매점의 스포츠 상점에서 첫 번째 열은 거래 ID이며 4이면 거래 날짜가 2011 년 12 월 17 일이고 고객 ID라고 함 4 0 2 6 1 3 고객 ID 또는 고객 번호 지출 한 금액은 $ 98 81 센트이고 해당 카테고리 팀 스포츠 하키 도시 내쉬빌과 테네시 주정부는 거래 데이터는 다음과 같습니다 여러 고객이 스포츠 상점에서 품목을 구매했습니다 그게 너무 큰 날짜이며 실제로 이것의 라인의 주 데이터가 맞으므로 이것은 하나의 파일입니다

여기에는 또 다른 파일이 있습니다 이 파일을 열면 고객 데이터입니다 예를 들어 첫 번째 열에 한 줄 또는 한 레코드는 고객 ID입니다 zero zero zero 1 5 그러면 이름과 성이 줄입니다 Julia -49 세의 직업은 대부분의 음악가이므로 2 개의 데이터 세트가 있습니다 1 데이터 거래는 고객이 수행 한 것이며 두 번째 데이터는 데이터입니다

고객에 대한 정보 고객 이름 연령 고객 ID 연령 직업이라고 말하면 데이터를 설정해야하며 고객 ID를 볼 수 있습니다 내가하고 싶은 것은 내가하고 싶은 일입니다 이 데이터를 분석하고 싶습니까? 제가 실제로 원하는 것은 어떤 종류의 분석입니까? 할 일은 내 젊은이들이 돈을 얼마나 쓰는지 이해하고 싶다는 것입니다 내 매장에서 중년층이 소비 한 총 금액과 내 가게에서 노인들이 얼마나 많은 금액을 소비하는지 그래서 기본적으로 나는 원한다 고객을 3 개의 그룹으로 분류하는 것 다른 그룹보다 30에서 50 개의 다른 그룹 그들에 의해 소비 된 금액의 합계를 계산합니다

어떻게해야하는지 첫 단계로 어떻게 할 수 있는지 봅시다 나는 테이블을 만들거야 이것은 테이블을 생성하는 구문이며 이것은 내가 말하는 속편을 이미 알고 있다면 놀라지 마라 이 테이블을 내 테이블 이름 트랜잭션 레코드라고합니다 카테고리 간 스키마 매우 간단한 트랜잭션 번호 날짜 고객 번호 제품 도시 상태가 소비하고 하이브는 다음과 매우 유사한 스키마를 부과합니다 데이터 형식과 모두가 하루 하루와 매우 유사합니다 문자열에서 지원하는 것처럼 일상 생활은 거의 모든 것을 두 배로 부양합니다

바로 데이터에 스키마를 부여 한 다음 행 형식을 말합니다 기본적으로 행을 식별한다는 것을 의미하는 행 형식의 데이터를 기대합니다 개행 문자를 사용하고 사용하면 모든 레코드 D를 분리합니다 제한된 필드는 쉼표로 끝나며 개별 필드는 쉼표입니다 여기에 세미콜론을 제공하면 입력 데이터에 있어야합니다

세미콜론 다음 기본적으로 텍스트 파일로 저장되었다고 말합니다 안녕 누가 데이터를 텍스트 파일로 저장하면 시퀀스 파일 또는 다른 원하는 경우에도 형식을 지정하지만 텍스트 파일을 입력하지 않으면 저장할 것입니다 텍스트 파일로 입력하면 Enter 키를 누르면 구문입니다 안녕하세요, 괜찮습니다 데이터가 올바르게 생성되었음을 증명합니다 다른 테이블이 있음을 의미합니다 이제 다음 지점에 테이블을 만들었습니다

어떻게 데이터를로드합니까? 테이블 이제 데이터를 하이브 테이블에로드하는 여러 가지 방법이 있습니다 먼저 모든 사람이하는 일반적인 방법을 보여줍니다 데이터는 내 리눅스 컴퓨터의 바탕 화면에 있습니다 내 로컬 파일 시스템에 있으므로 경로 /에 데이터 컬을로드하지 않아도됩니다 Cloudera에 구멍이 생겼으므로 이것이 데스크탑이 X 테이블로 향하는 경로입니다

실제로 삽입 할 수있는 데이터를로드하지만 일반적으로 데이터를 알고 있음 웨어 하우징 대량 데이터를로드하여 엄청난 양의 테이블을 얻고로드하려는 텍스트 파일을 알고 있습니다 일반적으로 삽입 인서트를 일반적으로 말하지 않을 것입니다 당신은 이와 같은 데이터를 덤프 할 것입니다 local in path 이것은 내 데이터가 로컬 파일 시스템에 있으며 이것이 테이블 트랜잭션 레코드에 대한 내 데이터 경로 이제 테이블에서 select star를하면 limit 20이라고 말하거나 데이터를 볼 수 있어야합니다로드했기 때문에 데이터를 볼 수 있습니다

데이터를 테이블에 표시하므로 이제 데이터도 종이에 있지만 하둡에서 한 장면 뒤에 무슨 일이 일어나고 있는지 바로 설치할 때마다 무대 뒤에서 일어나는 일을 보여 드리겠습니다 어떤 플랫폼에서든 과대 광고는 HDFS에웨어 하우스라는 폴더가 있으므로 HDFS DFS를 수행하는 경우-LS high high를 설치할 때마다 이것을 자동으로 생성합니다 Hadoop HDFS에서웨어 하우스라는 폴더 이름 이 창고 폴더 안에 무엇이 있는지 확인하면 창고입니다 당신이 만든 데이터베이스는 데이터베이스 델 도트 DB입니다 어떤 데이터베이스를 만들고 있는지 어떤 데이터베이스를 만들고 있는지 실제로이 창고 디렉토리 안에 저장되어 있습니다

데이터베이스 ok 데이터베이스가이 부분 사용자 하이브웨어 하우스에 생성 된 다음 지금 생성 한 DB는 Hadoop DB의 폴더 일뿐입니다 Hadoop Q의 폴더는 Hadoop에 대한 웹 인터페이스입니다 색조에서 다른 것은 없습니다 브라우저로 갈 수 있고 오히려 오히려 볼 수 있습니다 먼저 HDFS를 입력하면 여기에 와서 파일이 무엇인지 알 수 있습니다

웨어 하우스라는 폴더를 만들면 높음 설치시 하둡에서 웨어 하우스 폴더입니다웨어 하우스 폴더를 볼 수 있습니다 이 창고 폴더를 열면 창고라는 폴더를 만듭니다 창고 폴더는 당신이 이렇게 만든 모든 데이터베이스를 볼 수 있습니다 Dell dot DB라는 데이터베이스는 Hadoop의 폴더 일뿐입니다 데이터베이스이며 데이터베이스라고 생각합니다

데이터베이스가 아니라 폴더 일뿐입니다 이 폴더를 열면 Dell dot DB 참조 트랜잭션 레코드 생성 한 트랜잭션 레코드 테이블은 단지 폴더를 열면 여기에 무엇을 표시하는지 알려주세요 내가 복사 한 파일은 테이블 구조를 보라 여기에서 데이터베이스를 본다 도트 DB는 단지 폴더 거래 기록입니다 이 파일은 하둡에서 발생하는 파일이므로 데이터를 하이브 테이블에로드하면 Linux에서 데이터를 복사하는 것입니다

하둡의 폴더는 분명합니다 물론 아래쪽 명령을 사용하십시오 경로에 로컬 데이터를 기록하지만 비하인드 스토리는 테이블에 삽입하는 데이터는이 위치로 복사됩니다 HDFS에서이 데이터가 매우 많은 경우 블록과 일반 Hadoop 파일과 마찬가지로 데이터가 저장되는 위치이므로 또한웨어 하우스를 수행하고 델 닷 DB를 수행하면 명령 줄에서 이것을 보여줍니다 트랜잭션 레코드라는 다른 폴더가 표시되고 다시 말해 px 및 레코드 파일을 볼 수 있습니다 그렇기 때문에 고속도로에서 실제 데이터를 투영하는 것입니다

방금 하둡에 누워 있습니다 더 많은 테이블에 저장해야 할 고객 데이터가 있기 때문에 고객이라는 테이블에 고객 번호 이름 성 등이 있습니다 다른 테이블과 데이터를로드하여 데이터가 테이블에 고객에게 전화를 걸었습니다 이제 고객에게 데이터를 보내지 만 궁금 할 것입니다 지금까지 나는 MapReduce 프로그램을 보지 못해서 그녀에게 데이터를 쿼리하면 MapReduce 작업이 표시됩니다 실제로 쿼리를 실행하지 않았기 때문에 아무것도 보지 못했습니다

거래 기록에서 별표 수를 계산하면 올바른 쿼리이므로 테이블에서 count star를 선택하면 기본적으로 행 수를 알고 싶습니다 Enter 키를 누르면 MapReduce 작업을 시작합니다 적절한 쿼리이므로 생성 할 결과를 보여줄 수 없으며 작업을 시작하고 jar 파일을 작성하면 여기에 결과가 50,000입니다 쿼리 결과는 50,000입니다 어떻게했는지는 50,000입니다

방금 검색어를 작성하고 Enter 키를 누르면 자동으로 동등한 MapReduce 작업으로 결과를 표시하고 결과를 지금 얻습니다 이걸 더 분석해서 내가하고 싶은 것을 하나 만들어 보겠습니다 더 많은 테이블이 있으므로이 테이블이 가지고있는 테이블 하나를 만들어 보겠습니다 고객 번호 이름 연령 직업 금액 및 제품 기본적으로 내 생각은 내가 가지고있는 고객 데이터가있는 조인 작업을 수행하는 것입니다 두 거래 데이터 모두 고객 ID라는 공통 열을 가지고 있으므로 아이디어는 간단한 내부 조인 작업과 조인 작업을 수행하는 것입니다 조인 작업은 테이블에 저장되어 있어야하므로 이미 테이블을 만들었습니다

그래서이 테이블은 하나라고 부르며 어떻게 하이브에서 조인 작업을합니까? 간단한 삽입 오른쪽 테이블 하나 밖으로 그래서 하나는 우리가 만든 새 테이블은 도로 고객 화살표를 선택합니다 조인 작업의 구문을 보면 정확히 Enter 키를 누르면 정상적인 속편 조인 작업이 MapReduce를 시작합니다 직업은 이제 조인이 끝났고 내가 별에서 별을 선택하면 이것은 우리의 조인의 결과이며 내가 20을 제한하거나 뭔가를 본다면 이것이 이 결과가 새 테이블 인 경우 새 테이블의 새 테이블 결과 고객 관련 데이터 및 거래가 있음을 확인할 수 있도록 조인 작업 관련 데이터 이것은 매우 간단합니다 저는 동일한 논리를 따르고 있습니다 여기의 유일한 차이점은 MapReduce로 변환한다는 것을 알고 있다는 것입니다

지금 할 수있는 일은 이것 이후에 하나 더 테이블을 만들 것입니다 내가 지금하고 싶은 것은 지금 내가 한 일을 볼 수있는 테이블을 만들고 있습니다 가입 작업이지만 고객을 고객으로 분류하고 싶습니다 나이가 다르므로 age라는 열이 있는데 여기를 보면 어떻게 간단하게 할 수 있습니까? 너무 끔찍하게 덮어 쓰면 결과 가이 테이블에 있음을 의미합니다 마지막 단계에서 스타 쉼표 선택을 선택했습니다 케이스를 여는 중입니다 여기에 a가 30보다 작을 때의 경우는 낮음으로 표시됩니다

나이가 50 세보다 30 세에서 50 세 사이 인 경우 이 쿼리가 수행하는 작업은 이전 테이블에서 모든 행을 선택합니다 연령 열과 내 기준에 따라 모든 레코드를 중간에 표시합니다 이전에 다시 입력하면 MapReduce 작업이 다시 실행되므로 모든 쿼리가 MapReduce 작업을 실행하면 걱정할 필요가 없으므로 맵을 볼 수 있습니다 이미 0 등이고 이제 끝났습니다 지금하면 쿼리가 끝납니다 나는 밖으로 별을 선택합니다-내가 20을 제한하거나 모든 것을 보는 경우 레코드는 이제 오래된 중간 중간 오래된 등의 범주를 가지고 있습니다

이제 고객을 분류 할 수 있습니다 제가해야 할 일은 매우 간단합니다 하나 이상의 테이블을 만들면 쿼리로 그룹을 만들 것이므로 여기서하는 것은 매우 간단한 사람들은 insert overwrite table out 3 그래서 3은 최신 테이블입니다 선택 레벨을 만들었으므로 레벨 열이 중간보다 낮습니다 레벨별로 그룹화하는 방법의 분류 합계이므로 매우 간단합니다

쿼리별로 그룹화이 쿼리의 결과에는 최종 답변이 표시되므로 이름이 3 이상이고 내가 선택할 스타를 선택하면 쿼리가 끝납니다 최종 답변이 여기에 있습니다 최종 답변이므로 젊은이들이 이 많은 양의 중년 소비 지출 플러스이 많은 양의 오래된 지출 HP와이 금액을 더 많이 소비하기 때문에 이것이 높은 일을 시작하는 방법입니다 인생에는 두 가지 유형의 테이블이 있으며 관리되는 테이블이라는 것이 있습니다 외부 테이블이라는 것이 있으며 기본적으로 생성 한 테이블이 있습니다 관리되는 테이블이므로 차이점이 무엇인지 알려 드리겠습니다

당신이 만들 수있는 하이브의 두 가지 유형의 테이블 나는 두 가지 유형의 테이블을 의미합니다 관리 테이블이라는 것이 있고 외부라는 것이 있습니다 테이블 이제 기본적으로 이러한 것들이 무엇입니까? 탁자에있는 사람은 무엇 이니까요 벌통에 가면 show show 테이블이라고 말하면 거래 레코드라는 테이블이 있습니다 이 명령을 묶으면 X와 레코드에 대해 설명합니다 관리되는 테이블 테이블 유형이라고 표시되며 위치는 테이블 관리 테이블은 테이블이 아내에 의해 관리됨을 의미합니다 즉,이 테이블은 사용자 hi웨어 하우스에 저장되며 변경할 수 없습니다

관리 테이블이라고도합니다 관리 테이블 인 경우 안녕하세요, 내가 할 수있는 일을 말할 수있는 외부 테이블입니다 외부 테이블을 만들 수 있다고 말하면 외부 테이블을 만들 때 외부 테이블 만들기라는 외부 테이블이 무엇인지 알려줍니다 글쎄, 구문이 맞지 않아 아시아 슬래시 사용자를 한 가지 더 추가하겠습니다 슬래시 Cloudera 슬래시 사용자 Cloudera 나는 그것이 사용자라고 생각 구름 주위에 다음과 같이 내 고객을 말할 수 있습니다 이것을 먼저 입력하겠습니다

그러면 이해하겠습니다 이 사람은 세금 세율입니다 나는 당신이 외부를 만들 때마다 외부 테이블 만들기를 말하고 있습니다 테이블 외부 테이블이라고 구체적으로 언급해야합니다 그냥 create table이라고하면 관리 테이블이되므로 create라고 말하면됩니다 외부 테이블이며 이것은 테이블 이름이며이 스키마와 행을 보면 형식이 모두 동일합니다 스키마 나 형식에 차이가 없습니다

또는 고객과의 위치 사용자 클라우드의 차이점 이것은 이것이 Hadoop의 위치임을 의미합니다 당신이 당신의 색조에 갈 경우이 테이블 당신은 당신에게 간다 구름 시대 테이블이있다 내 고객이라고 불리는이 테이블이 방금 생성 된 것을 볼 수 있습니까? 이 안에는 데이터가 없습니다 이점의 장점은 이 테이블에서 별표를 선택하면 XM 외부 테이블을 만들었습니다 레코드-채우지 않은 데이터 테이블을 방금 만들었으므로 데이터가 없습니다 데이터로 채우고 싶다면 데이터로 채우십시오

고객 사본 인 외부 테이블에 언급 된 폴더로 이동 해당 폴더의 데이터가 이제이 데이터를 고객 폴더 Hadoop I의 고객 폴더에서이 폴더를 볼 수 있습니까? 다시 여기에 와서 별을 선택하면이 데이터를 업로드했습니다 20으로 제한 데이터가 있으므로 관리 테이블의 차이점은 무엇입니까? 그런데 기본 테이블 인 관리 테이블의 외부 테이블 테이블을 작성할 때 테이블은 항상 사용자 하이브웨어 하우스에 작성됩니다 그 위치를 찾은 다음 수동으로 데이터를 테이블 외부에로드합니다 table은 외부 테이블을 만들 때 위치를 언급하는 것을 의미합니다 데이터가이 줄을 보면 데이터가 이것에서 나올 것이라고 말합니다 폴더 및이 폴더에 덤프 한 모든 데이터는 관리되는 테이블과 테이블의 차이점이 정확히 무엇입니까? 외부 테이블은 위치만의 차이입니다

예, 차이가 있습니다 위치이지만 실제 질문은 관리되는 테이블을 어디에서 사용할 것인가입니다 외부 테이블을 어디에서 사용할 것입니까? 내가 쇼 테이블을하면 여기라는 테이블이 있습니다 트랜잭션 레코드 이것은 드롭 테이블 pxn 레코드라고 말할 수있는 관리 테이블입니다 그래서 내가하고있는 일은 거래 기록이라는 테이블을 삭제하는 중입니다

이 관리 테이블은이 관리 테이블의 데이터에 어떤 일이 일어날까요? 테이블을 삭제할 때 알기 때문에 삭제 이유가 삭제됩니다 해당 폴더는 hadoop에서 삭제되며 폴더 구조 데이터를 기억하십시오 관리 테이블을 삭제하면 데이터가 사라졌지 만 x10 레코드 삭제 테이블을 수행하면 외부 테이블이 테이블은 사라졌지 만 클라우드 시대와 꼬리와 폴더는 내 고객 데이터입니다 당신이 드롭하면 차이가 차이가 거기에 남아 관리 테이블 테이블이 데이터를 가져 가고 외부 테이블을 작성합니다 테이블 만 공유하므로 데이터를 동일하게 유지하므로 테이블을 공유하려는 경우 다른 사람들과 함께 프로젝트에서 작업한다고 가정 해 봅시다

테이블을 만들고 당신은 당신이 다른 사람과 당신과 테이블을 공유하고 싶다고 생각 누군가 실수로 테이블을 삭제했을 수 있습니다 누군가 실수로 테이블을 훔치면 데이터가 안전하기 때문에 그렇지 않으면 관리 테이블을 작성하여 b-line을 사용하는 방법을 사용하여 b-line이 새 CLI 및 기본적으로 클라우드 VM을 사용하는 경우 서버에 하이브 서버가 있습니다 실행 중이며 기본 포트 번호는 10,000입니다 B 라인에 연결하려는 경우 필요한 모든 것을 보장하는 설명서 먼저 B 라인을 시작해야합니다 이것이 B 라인을 시작하는 방법입니다

사용자 링크 하이 빈 B 라인이라고 말할 것입니다 이것은 기본적으로 B 위치입니다 라인이 설치되어 있지만 배포판마다 다를 수 있지만 클라우드 시대 하둡은 항상 가볍기 때문에 이제 B 라인 CLI를 볼 수 있지만 여기에 표시하면 B 행의 테이블 표시가 발생한다고 말할 때 오류가 발생합니다 연결이 없음을 나타내는 오류 B Line은 안녕하세요 서버와 연결해야하는 클라이언트 B Line은 이제 클라이언트입니다 내가 hi를 누르면 hi를 열었을 때의 차이점 전체 패키지 하이브 그것은 내 고객이 아니지만 내가 라인이라고 말하면 그것은 클라이언트라고 B 라인에서 show table을 말할 때 연결할 수 없다고 말합니다 필요한 서버에 연결하는 경우 서버 해야 할 것은이 녀석들이 당신이 같은 것을 사용할 수있는 연결 문자열입니다 JDBC에서 이미 바쁘거나 이것이 무엇이든 연결 문자열 연결 JDBC 5-2 5-2는 높은 서버 권한을 나타냅니다

기본적으로 숫자 사용자 이름 비밀번호를 지원하는 localhost 로컬로 실행하고 JDBC 대여 드라이버를 사용하므로 바로 연결할 수 있습니다 내가 쇼 테이블을 말하면이 지금 미안 데이터베이스를 표시하면 모든 데이터베이스가 나열되므로 시작 방법입니다 beeline 그래서 당신은 당신에게 당신에게 lib 안녕 beeline 말할 수 있도록 beeline을 시작합니다 beeline은 고객이며 show table을 말하면 아무것도 표시되지 않습니다 서버 연결이 필요하고 연결 문자열이므로 localhost에서 실행중인 localhost에 JDBC 하이브 서버와 연결한다고 말하고 포트 번호 username password hit 입력하면 연결되고 확인되면 연결하면 일반 명령을 입력 할 수 있으므로 어디에 두 번째 man show 데이터베이스에 대한 명령이므로 입력 한 명령입니다 여기 데이터베이스 목록이 있고 명령 행은 거의 높은 천장과 비슷하므로 B 라인 작업을 시작하는 방법입니다

B 라인을 유지하고 싶다면 느낌표 Q라고 말하십시오 귀엽고 매우 중요한 느낌표 q에 대한 명령 이제 Y로 돌아 왔으므로 기울기에서 하이브 서버로 연결하는 방법입니다 당신은 또한 바탕 화면이나 무언가에 기울어 다운로드하고 만들 수 있습니다 모든 명령을 입력하지 않으려면 이제 하이브 서버에 연결하십시오 또는 당신은 당신이 테이블을 만드는 명령을 싫어하고 당신이 할 수있는 모든 올 너에게 괜찮아 그럼 내가 할 일은 여기에 작업 할 데이터를 보여 드리겠습니다 데이터가 있습니다

의료 샘플 데이터에 환자 ID가 있습니다 환자 이름 환자 이름 병원 데이터 이메일 주소 사회 보장 번호의 날짜 질병 당뇨병 발열 감기 ㅋ ㅋ ㅋ ㅋ 그래서 이것은 내가 샘플 데이터입니다 이 데이터를 hi에 업로드하고 기본적으로 데이터를 쿼리하려면 어떻게해야합니까? 감기에 걸리지 않는 모든 사람들의 목록을 얻으려고 물론 명령 줄을 사용할 수 있지만 사용할 수도 있습니다 GUI는 색조로 이동하는 것을 보여줍니다이 데이터 브라우저로 이동합니다 메타 스토어를 클릭하면 메타 스토어 테이블이라는 것이 클릭됩니다

표를 선택하면 데이터베이스를 선택할 수 있으므로 데이터베이스이 데이터베이스를 선택할 수 있습니다 가능한 파일에서 테이블을 생성한다고 말할 수 있습니다 테이블 이름 테스트 테이블을 괜찮게하고 파일을 선택할 수 있다고 말할 수 있습니다 이 의료 데이터가 다음에 말하는 테이블을 만들려는 위치 자동으로 데이터가 표시됩니다 네 데이터는 예처럼 보입니다

다음에 말할 것입니다 또한 자동으로 데이터 유형을 선택합니다 create table이라고 말하면 업로드 한 파일에서 테이블을 만듭니다 하둡에게 지금 나는 진술이나 무엇이든 입력해야합니다 이제 테이블이 생성되면 테이블을 만들 수 있습니다

GUI의 표는 당신에게 필요하지 않은 것을 보여줍니다 이 쿼리 편집기로 이동하여 하이브라는 것이 있습니다 당신은 여기 안녕에 갈 수 볼 수 있습니까 하이브에서는 데이터베이스를 사용해야합니다 테스트 테이블이라는 데이터베이스가 있습니다 이 표를 바로 선택하십시오

그래서 이것은 표입니다 그래서 테스트에서 별을 선택할 수 있습니다 7 번 열이 콜드 인 테이블에서 쿼리를 실행하여 GUI에서 쿼리를 실행하고 결과를 올바르게 볼 수 있는지 보여줍니다 멋진 차트를 만들 수 있고 원하는 경우 차트가없는 것처럼 만들지 않고 모든 바다 스택과 그룹 및 기본적으로 원하는 경우 만들 수있는 모든 것 나는 당신이 파티션에서 쿼리를 실행할 수 있다는 것입니다 하이브 그래서 정확히 하이브의 파티션은 무엇이며 왜 우리가 이것을 올바르게하고 있습니까? 칸막이의 배후에있는 아이디어와 우리가해야 할 일 그냥 당신이 높은 괜찮을 사용하는 프로젝트에서 작업하고 있다고 상상해보십시오

물론 Apache hive를 사용하는 프로젝트에 있고 행복합니다 행복하게 일하고 있고 모든 것이 잘되고 있습니다 관리자가 당신에게 와서 말하기를 상상해 봅시다 Raghu는 당신의 하이브에서 나를 위해 테이블을 만드는 한 가지 일을 모든 판매 데이터를 업로드하여 테이블을 만들었습니다 테이블 판매 데이터 판매 데이터라는 테이블을 만들었습니다

관리자가 영업과 관련된 일부 데이터를 업로드해야한다고 말했기 때문에 그래서 일부 스키마를 사용하여 sales data라는 테이블을 만들었습니다 열과 우리가 지금 상상하고있는 모든 것 당분간 우리는 우리가 관리 테이블에 있다고 가정하고 기본적으로이 테이블을 만들면 테이블이 사용자 하이브웨어 하우스에 저장되고 데이터베이스를 새로운 DD라고합니다 / sales data sales data라는 테이블을 만들면 기본적으로 위치하므로 기본 항목이므로 만들 때마다 관리되는 테이블 테이블 위치는 이제 다음과 같습니다 관리자가 Rahu에게 데이터가 하나 있습니다 관리자가 제공하는 데이터를 테이블에로드하지 않는 이유 파일을 가져 와서 판매 데이터 테이블에로드하도록 요청했습니다

일반적으로 데이터를로드하는 방법을 알고 있으므로 데이터를로드 할 때 데이터를로드 한 다음 관리자가 이 1 월 데이터이므로 1 월 도트 txt라는 파일을로드했습니다 매우 간단합니다 판매 데이터라는 테이블을 만들었습니다 파일을로드했습니다 1 월 도트 txt라고하며 월의 모든 판매 거래가 포함됩니다 1 월은 매우 간단해서 관리자도 행복합니다 무슨 일이 있었는지 당신은 프로젝트에서 작업을 계속 알고 다음 달에 관리자가 와서 우리가 아는 데이터가 더 많은 사람이 싫어서이 데이터는 2 월 왜 테이블에 데이터를로드하지 않습니까 이제 파일이 February dot txt이므로 그러나 2 월 달 데이터는 동일한 테이블에로드되기 때문에 이것은 이제 판매 데이터 폴더 안에있는 구조가 될 것입니다 파일 1 월과 2 월이 맞습니다 아마 이렇게 작성하겠습니다

이해하기 쉽기 때문에 이렇게 말하면 관리자가 Decco라고합니다 데이터가 더 있습니다 데이터가 더 있습니다 March dot txt 그러면 4 월 도트 txt가 어떻게되는지, 그리고 무슨 일이 있었는지 또는 txt가오고, June dot txt가 제공되므로 매월 여기에서 발생하는 일을 매월 데이터를 가져오고 데이터를로드하고 있습니다 판매 데이터라는 테이블이 있지만 데이터가 저장되는 방식은 모두 다르다는 것입니다

1 월 2 월 3 월 4 월 5 월 6 월 모든 파일이 같은 폴더 안에 있습니다 테이블 이름이므로 영업 데이터라고합니다 괜찮다고 생각하지만 문제가 무엇인지 지금 상상해보십시오 이런 식으로 쿼리를 작성하면 쿼리를 작성한다고 상상할 수 있습니다 이 별 선택과 같은 것 월과 같은 판매 데이터 테이블은 4 월에 예, 쿼리하려는 테이블을 쿼리한다고 가정 해 보겠습니다

당신이 말하는 채석장은 무엇입니까? 4 월과 같다는 것은 4 월의 모든 데이터를보고 싶다는 의미입니다 기본적으로 하이브 문제는 4 월 데이터가 어디에 있는지 알지 못합니다 그래서 내가 할 일은 먼저 판매 데이터라는 폴더에 올 것입니다 이 1 월 행 txt 전체를 스캔 한 다음 2 월 행 txt 전체를 스캔 한 후 대량 도트 txt 다음 4 월 도트 txt 다시 일치 한 항목을 찾거나 6 월 txt를 다시 찾습니다 도트 txt는 전체 데이터가이 단일 쿼리 및 쿼리가 정말 느리게 진행되므로 문제는 하둡의 테이블은 폴더와 같으며 계속로드합니다

데이터를로드 할 때마다 데이터가 파일로 저장되므로 이제 단일 파일 안에 6 개가 있습니다 이제 단일 폴더 안에 6 개가 있습니다 파일 1 월 2 월 3 월 4 월 5 월 5 월 6 월 6 개의 파일을 모두 스캔 할 데이터가 어디인지 알고 있습니다 6 개의 파일 모두 최종 결과를 보여줍니다 테이블에 매월 매달 데이터를 계속 추가한다고 상상해보십시오

100 개의 다른 파일을 보여주기 전에이 전체 파일을 어떻게 견뎌야하는지 쿼리 결과의 출력과 분명히 쿼리는 실제로 실제로 정말 느리므로 실제로 데이터가 어디에 있는지 말하지 않습니다 그것은 간단한 문제이며 Kyle은 전체 파일을 스캔하여 결과를 생성해야합니다 이상적으로는 쿼리 속도가 느려질 것입니다 질문은 내 쿼리를 원하지 않는 그런 상황에서 무엇을 할 수 있는지입니다 나는 파티션의 개념이 오는 곳에서 쿼리가 더 빨라지기를 원합니다

하이브에는 파티션이라는 것이 있습니다 정확히 파티션은 파티션입니다 열에서 데이터를 나누도록 하이브에게 알려주는 파티션은 무엇입니까? 열을 기준으로 데이터를 분리하십시오 예를 들어 여기서 말할 수있는 것은 나는 안녕 내가 말할 수있는 파티션을 작성하는 테이블을 기반으로 달 열 그래서 이것은 당신이 하이브에게 말할 수있는 것이므로 안녕하세요 안녕하세요 말할 수 있습니다 한 가지만 내 테이블을 파티션으로 분할하십시오 내가 할 것을 말하면 달 열은 그것이 보일 것입니다

이제 이것을 작성하면 전체 데이터를 먼저보고 1 월에 분명히 전체 데이터의 월 열을 살펴볼 수 있습니다 도트 txt 파일 월 열은 내가 무엇을 할 것인가 1 월 것입니다 Jan이라는 폴더를 만들고이 파일을 팹이라는 것을 만들어 여기에 배치하고 3 월에 배치합니다 여기 미안하고 4 월 여기에 둘 수 있습니다 여기 6 월 여기에 놓으세요 파티션과 월 열을 기준으로 파티션을 만들고 싶습니다 내가 할 일은 전체 데이터에서 열을 선택하고 내 예제에 몇 개의 값이 있는지 이해하고 6 개월의 데이터가 있습니다 자동으로 6 개의 폴더를 생성합니다

1 월 2 월 3 월 4 월 5 월 6 월 모두 1 월 달 데이터는 2 월 동안이 폴더에 복사됩니다 동일한 쿼리를 작성하면 데이터 가이 폴더 등에 복사됩니다 4 월에 해당하는 월이이 항목 만 스캔하는 판매 데이터에서 별표를 선택하십시오 4 월 데이터가 ap라는 폴더 안에 있다는 것을 알고 있기 때문에 쿼리 속도가 훨씬 빠릅니다 파티션은 아무것도 아닙니다

실제로 테이블의 구분입니다 파티션을 만드는 것은 매우 간단합니다 파티션 열을 기반으로 많은 폴더가 생성되며 무엇이든 해당 폴더와 일치하는 기준은 데이터가 해당 폴더로 매우 이동 됨 간단하게 하나 더 이해해야 데이터가 표시 될 수 있습니다 그러면 내가 사용할 데이터라는 것을 쉽게 이해할 수 있습니다 이 데이터에 대한 하나의 레코드를 가져 오면 분할을 위해 이 데이터는 먼저 데이터가 무엇인지 보여 드리고 먼저 데이터를 분석하겠습니다

여기를보십시오 레코드 흠 이것은 하나의 레코드이므로 이름 gerardo 성 보드카 다음 6 9 번 2 번 또는 6 번 잭슨 애비뉴는 국가 다음 주 기본 전화 번호 보조 전화 번호 이메일 아래로 스크롤하면 데이터 인 주소와 웹 사이트 주소가 689 s 스틸 인 janeshia aloe vera를보십시오 캘리포니아 1 번 8 8 7 번 캘리포니아 캘리포니아라고 생각합니다 기본적으로 데이터에 실제로 포함 된 다른 세부 정보가 있습니다 사용자 이름은 괜찮습니다

데이터의 마지막 부분을 보여 드리겠습니다 데이터의 마지막 부분을 보여주세요 예, 여기 있습니다 여기를 보면 길마 류코와 우리에게 다시 주소 전화 번호 이메일 주소 웹 사이트를 통해 이제 두 가지 유형의 파티션이 있으며 정적이라는 것이 있습니다 정적 파티션 분할 및 동적이라는 것이 있습니다

정적 분할은 무엇입니까 동적 분할은 무엇입니까 정적 파티션에서 파티션하기 파티션을 수동으로 만들어야합니다 동적 파티셔닝에서 데이터를 자동으로로드합니다 자연스럽게 생각할 수 있도록 데이터를 감지하고 파티션을 만듭니다 동적 파티셔닝이 정말 좋기 때문에 이것이 적용 가능한 곳 동적 파티셔닝 하이브에서 자동으로 파티션 왜 정적 파티셔닝을 사용해야합니까 바로 이런 데이터가 있다고 가정 해 봅시다 ragu coma 당신은 당신이 알고있는 전화 번호를 알고 당신은 이메일 주소를 가지고 그런 다음 abccom에서 ROM을 알 수 있습니다

자 이제 더 많은 데이터가 있습니다 Tina에게 전화 번호를 말하십시오 abccom의 Tina 이제 aj IJ의 전화 번호가 있습니다 abccom은 당신이 이것을 가지고 있다고 가정하자 현재 데이터는 Raghu와 Ron이 인도에 있고 Tina와 AJ는 미국에 살고 있지만 데이터에서 인도와 미국에 대한 엄격한 열이 없습니다

전화 번호보다 이름이 있고 이메일 주소와 웹 사이트가 없습니다 나라이지만 Raghu와 Ram은 이 경우 인도와 Tina, Ajay는 미국에 속합니다 두 개의 파티션과 파티션을 수동으로 생성 우리는 인도와 우리가 될 것이고 인도의 첫 두 파일과 마지막 두 파일을로드합니다 우리 파일은 정적 분할입니다 정적 파티셔닝의 경우 정적 파티셔닝은 데이터가 집계되어 있음을 알고 데이터 절반을 알고 있음 이 데이터의 국가는 인도 국가에 속하며 데이터의 절반은 미국에 있지만 해당 정보가 데이터에 존재하지 않으므로 귀하가하는 일 정적 파티션을 만들려면 정적 파티션은 데이터를로드하면 인도라는 높은 파티션을 요청할 것입니다

USA라는 파티션을 생성하여이 데이터를 저장하면 데이터를 쿼리 할 수 ​​있습니다 국가와 인도가 같은 내 테이블에서 별을 선택한다고합니다 확실히이 파티션을 쿼리하면 열을 정의하는 것과 같습니다 이제 데이터를로드하는 것이 가장 좋은 방법 인 파티션을 보여줍니다 이 작업을 수행하려면 먼저 VM에 연결해야합니다 그럼 파티셔닝이 어떻게되는지 보도록하겠습니다

이제 제가 할 것은 알았어 내가 먼저 시작 할거야 알았어 내가 먼저 할거야 내가 할거야 하이브를 시작하고 방금 데이터를 보여준 데이터가 있습니다 가장 먼저 할 일은 정적 분할을 보여줄 것입니다 이제 데이터 기반을 보여주십시오 데이터베이스 데이터베이스를 가져와야합니다 휴는 귀하의 웹 인터페이스이므로 기억해야 할 첫 번째 사항임을 기억하십시오 당신은 내 폴더 구조가 그녀의 튜브에 어떻게 보이는지 그래서 내 루트로 갈거야

디렉토리 및 사용자 디렉토리와 하이브 디렉토리가 있습니다 창고 및 Dell DB가 있으며 Dell DB 내부에 이러한 폴더가 있습니다 이제 두 개의 DUI를 진행할 예정입니다 파티션 된 사용자라고하면 테이블 이름을 지정하고 내가 어떻게 있는지 볼 수 있습니다 파티션 테이블을 생성하면 이것이 내 스키마입니다

스키마 후 국가 및 국가별로 파티션을 말하고 있습니다 파티셔닝에 사용하는 모든 열은 외부에 있어야합니다 for 테이블을 생성 할 때 create a 표는 스키마에 문제가 없습니다 하지만 국가와 주별로 나뉘어져 있다는 말은 하이브를 말하는 것입니다 안녕하세요, 저는 테이블을 만들고 있는데 이것은 내 스키마이며 두 개의 열을 사용하여 파티션 국가와 상태를 입력하면 Enter 키를 누르면 하지만 신발을 새로 고침하면 여기가 테이블입니다

테이블 안에 들어가면 파티션 된 사용자가 없습니다 파티션이 없습니다 파티션이 없으므로 파티션을 만들 때 테이블이 없습니다 나누기 그것은 정상적인 테이블입니다이 테이블을 열었습니다

이것을 열면 테이블 파티션 사용자입니다 이제 정적을 생성하기 위해 정적 파티션을 매우 간단하게 작성하는 방법 파티션 당신이해야 할 일은 우리가 이것을 복제 할 데이터를 보여 드리겠습니다 sudo su Cloudera를 부팅하는 세션 괜찮습니다 이 파일을 static이라고하겠습니다 이제 파일을 보여 드리겠습니다

이 파일에는 세 개의 행이 있습니다 데이터와이 파일을 내 테이블에로드하고 지금 파티션을 만들려고합니다 알고있는 파일이 원본에서 복사 된 것임을 완전히 이해합니다 우리가 가진 파일이지만 이것은 시연을 위해 사용할 파일입니다 파티션을 보시면 지금 당장 세 개의 레코드 만 있습니다 그래서 당신은 이름을 가지고 있고 당신은 주소를 가지고 있고 당신은 전화 번호와 이메일 주소 웹 사이트는 내가 할 것입니다

경로에 데이터를 로컬로로드한다고 말하면이 폴더를이 폴더에로드합니다 캘리포니아와 동일한 미국 주와 동일한 테이블 파티션 국가 정적 파티션을 만들고 있는데 이미 테이블이 있고 그 테이블에는 이제 모든 스키마는이 파일을로드하지만이 파일을로드하는 동안 내부에 us라는 폴더를 만들거나 California라는 폴더를 만든 다음 데이터는 현재 미국입니다 내 국가는 캘리포니아입니다 그 안에 여기에 테이블을 만든 다음 내가 말한 데이터를로드했습니다 국가는 미국이고주는 캘리포니아입니다

지금 폴더를 표시하는 방법을 보여 드리겠습니다 델 DB로 가면 색조가 새로 고쳐지면 색조처럼 보입니다이 파티션이 있습니다 그 안에있는 사용자는 Country America라는 폴더가 있고 내 데이터가 있고 내부에 State California라는 폴더가 있습니다 데이터를 보면 데이터가 없습니다 국가가 없습니다

데이터에 열이 있지만 쿼리를하면 여기에 빠지도록 이것을 만들었습니다 data 나는 국가가 우리와 같고 주가 캘리포니아는이 데이터에 착륙하여이를 더 빨리 쿼리해야합니다 이것들은 먼저 테이블을 만들 때 사용되는 명령이며 스키마를 제공합니다 스키마 외부에 파티션 열을 정의하면 이것이 내가하는 일입니다 바로이 스키마 외부의 파티션 열을 찾은 다음 데이터를로드하는 동안 데이터 확인이 데이터가 속해 있다고 말해야하는 데이터 공급 업체에서 국가를 제공해야하는 국가는 매우 간단합니다

state name ok 이제 동적 파티셔닝에 대해 논의 해 봅시다 내가 지금하고 싶은 것은 역동적으로 행동하기 전에 파티셔닝 당신은 우선 몇 가지 일을해야한다 동적 분할 동적 분할을 수행하는 방법을 보여 드리겠습니다 정적 파티션을 사용하도록 설정 한 상태에서 기본적으로 참조하십시오 즉, 하이브는 동적 파티셔닝을 수행 할 수 없으므로 이 명령 집합 하이브를 입력하면 동적 파티션이 실행됩니다

true 즉, 동적 파티셔닝이 가능하다는 것을 의미합니다 노드 당 최대 동적 파티션은 1,000이며 이는 최대 파티션을 의미합니다 당신이 원하는 경우 더 많은 숫자를 줄 수있는 수천이 생성됩니다 난 그냥 천을 사용하여 좋은 소리 ok 당신은 또한 파티션 모드가 엄격하지 않다고 말하고 있습니다 엄격 모드와 비 엄격 모드라는 것이 있으면 OK입니다 동적 파티셔닝을 수행하기 위해 파티션 모드 nonce를 알고 있음 내가 할 일은 내가 당신을 보여줄 것입니다 동일한 데이터 세트로 동적 파티셔닝을 수행하면 정적 및 동적 파티션 지금은 기본적으로 동적 파티션을 사용하도록 설정했습니다

정적 파티션 만 있습니다 이제 내가 뭘할지 봅시다 매우 간단합니다 임시 테이블을 만들겠습니다 이제 임시 테이블입니다

하이브의 개념은 정상적인 임시 테이블과 정확히 유사합니다 임시 테이블을 만드는 방법 임시 테이블은 세션은 임시 테이블을 생성한다고 말하고 이번에는 나는 아무것도하지 않습니다 파티셔닝 당신은 내가 여기에 완전한 스키마를보고있다 참조 일반 임시 테이블을 만들면 아무 파티션도 간단하지 않습니다 임시 테이블 과이 테이블은 임시 밑줄 사용자라고하므로 임시 밑줄 사용자 일반 테이블 임시 테이블 없음 임시 테이블을 만들면 데이터를로드하고 싶습니다 이번에는 데이터를 불러옵니다

어떤 파일을로드하고 있습니까? 고객 데이터 도트 txt이며이 파일은이 파일에 국가 및 주가 있습니다 이 파일에서 작업하고있는 열이 파일에는 국가 및 주에 대한 콜론이 있습니다 좋아, 그래서 나는 파일을 만들고 나서 임시 테이블을 만들고있다 방금 원하는 첫 번째 단계로 데이터를 임시 테이블에로드했습니다 검색어를 작성하고 검색어에 시간이 걸리는지 여부를 확인합니다 이름을 쉼표 전화로 선택합니다

국가가 미국과 동일한 임시 테이블에서 쉼표 1 번으로 전화하십시오 도시 제한 5에 의해 캘리포니아 주문과 동일한 상태는 매우 간단한 쿼리이지만 유일한 조건은 내가 국가를 사용하고 있다는 것입니다 내가 아닌 경우 시간이 얼마나 걸리는지 보거나 보여주기 위해 내 테이블을 파티션하기 때문에 지금은 파티션이 없습니다 쿼리와 쿼리는 물론 실행되는데 시간이 얼마나 걸리는지 봅시다 이번에는 MapReduce 작업이 끝났습니다 85 초가 걸렸습니다 그래서 우리는 그것이 더 빠른지 알 수 있습니다 이제 VM에 ​​앉아서 실행하는 것이 하나 더 있습니다 파티셔닝은 큰 영향을 미치지는 않지만 이제 보여 드리겠습니다

신발에 갈 때 동적 파티션을 만드는 방법 나는이 델 D에 간다 그리고 지금 이것은 내 델 DB입니다 지금하고 싶은 것은 파티션 테이블 그래서 내가 무엇을 할 것인가라는 테이블을 만들 분할 된 사용자는 괜찮습니다 이것은 내 테이블 오른쪽 파티션의 스키마입니다 국가 및 국가별로 시퀀스 파일로 저장됩니다

이것은 선택 사항입니다 텍스트 파일이나 시퀀스 파일 또는 선택 사항이지만 저장할 수 있습니다 이것은 언제든 정적 파티션을 만들 때 사용한 것과 같은 명령입니다 정적 파티션 테이블을 만들고 있었지만 동일한 명령을 사용하지만 여기서 차이점은 데이터에 이미 주와 국가가 포함되어 있다는 것입니다 열은 이제 내가 할 일을 보았으므로 partitioned라는 테이블을 만들었습니다 사용자가 지금 할 일을 봅니다

표에 삽입을 말할 것입니다 파티션 밑줄 사용자 하나의 파티션 국가 쉼표 상태 그래서 내가 말하는 하이브입니다 안녕하세요 임시 테이블의 모든 데이터를 복사하고 이 새 테이블에로드하고 국가 및 주로 분할하십시오 이미 어떤 국가를 결정했는지는 알 수 없습니다

열이 이제 나타납니다 무슨 일이 일어날 지 봅시다 하이브가하는 일은 임시 테이블의 데이터를 들여다 볼 것입니다 국가 상태 열은 국가가 식별 한 국가를 식별합니다 그 많은 폴더와 그에 따라 데이터를 넣으십시오

화면을주의 깊게 살펴보면 하이브를 만드는 것을 볼 수 있습니다 폴더를 만들었으므로 지금 파티션을 작성하고 있습니다 팝업이 나타날 때까지 잠시만 기다리십시오 로딩을 볼 수 있습니까? 파티션 로딩 파티션 로딩 파티션 당신은 그 나라를 볼 수 있습니다 국가 국가 국가 상태이 파일과 폴더를 만드는 것을 볼 수 있습니다 내 휴를 보면 테이블을 분할 밑줄 사용자라고합니다

이 표를 열면 5 개국이 있습니다 오스트레일리아 캐나다 영국 미국 좋아요 폴더를 열면 마지막으로 네 나라가 남습니다 모든 국가는 당신이 데이터를 가지고 있다면 어디서나 생성됩니다 이 상태 중 하나를 열면 해당 상태 데이터 만 가진 파일이 생깁니다 물론 파일은 올바른 형식으로 볼 수 없습니다 시퀀스 파일로 저장하지만 상태 평가 기 데이터가있는 경우에만 여기에 일치하여 국가를 생성하고 있음을 알 수 있습니다

그런 다음 국가 내부에서 오래된 상태를 만들고 파일 내부에 동적 파티션이므로 이제 쿼리 여부를 확인할 수 있습니다 지금은 더 빠릅니다 그래서 내가 할 일은 동일한 쿼리를 작성합니다 파티션 테이블이 더 빨리 실행되고 있는지 확인하므로 동일한 내용을 작성 중입니다 여기에 쿼리하고 마지막 시간에 85 초가 걸렸을 때와 동일한 시간 쿼리하지만 새 테이블에서 발생하는 상황을 확인하십시오

많은 차이가 있지만 시간이 다소 걸릴 수 있습니다 마지막으로 파티셔닝하지 않고 41 초라고 말할 수 있습니까? 이제 쿼리 시간이 쿼리 시간에 영향을 미치는 41 초 밖에 걸리지 않습니다 당신이 빠른 정보 녀석이 될 경우 파티션을 사용할 때 Telepath의 인증 된 빅 데이터 하둡 아키텍트는 완벽한 빅 데이터를 제공합니다 모든 주요 개념을 다루는 하둡 아키텍트 과정 자세한 내용은 아래 설명을 확인하여 종료하십시오 세션이 있으시면 아래에 의견을 보내주십시오 즉시 감사합니다

[책리뷰] 내게만 보이는 남자 | 영화 및 웹툰 제작 예정 | 윤자수기

오늘 가져온 책은 최광희 작가님의 '내게만 보이는 남자'입니다 최광희 작가님은 영화 평론가로 활동하고 계신데요 영화 시나리오 작업에 본격적으로 들어가기 전에 트리트먼트 작업으로 시작한 것이 이렇게 한 권의 책으로 나왔습니다 배우 유지태 님과 함께 시나리오를 공동집필하고 웹툰으로도 만들어질 예정이라고 하는데요 그럼 이 책 '내게만 보이는 남자' 리뷰 시작해보도록 하겠습니다 여자주인공은 남편과 단둘이 살고 있습니다 여느날처럼 남편의 출근길을 배웅하고 문을 닫으면서 집으로 돌아왔는데요 이상한 느낌이 있어요 냉장고 옆에 못 보던 남자가 서있는거죠 방금 전까지만 해도 없었는데 갑자기 왠 남자가 서있습니다 그러니까 정말 무섭잖아요? 갑자기 내 집에 모르는 사람이 들어와있으니까 그래서 이 여자 주인공은 집을 나와서 주변에 도움을 요청합니다 "우리 집에 이상한 남자가 있어요!" 라고요 주변 사람들도 도와주고 경찰도 왔는데 "집에 아무도 없어요" 라고 이야기를 합니다 그래서 용기를 내서 따라서 들어갔는데 거기 버젓이 서있는거예요 그래서 여자 주인공이 "여기 있잖아요! 냉장고 옆에 있잖아요!"라고 했는데 아무도 그녀의 말을 믿지 않습니다 책 제목처럼 정말 내게만 보이는 남자였던거죠 그 남자는 아무 말도 하지 않고 아무 행동도 하지 않고 그저 냉장고 옆에 서있습니다 이 기묘한 남자와 기묘한 동거가 시작됩니다 첫 날은 그냥 무서워해요 둘째날은 남자에게 말을 겁니다 "그렇게 서있으면 다리가 아프지 않나요?" 이런 식으로요 이렇게 차츰 차츰 말 한 마디, 두 마디를 주고 받으면서 두 사람 사이에는 정이 쌓여갑니다 이렇게 기묘한 생활이 이어지지만 남편은 눈치를 채지 못해요 그 남자가 여자 주인공의 눈에만 보이기 때문에 집 안의 달라진 변화를 느끼지 못하기 때문이죠 단지 자기 아내가 이상하다고 생각을 하는데요 혼자서 중얼거리는 걸 봤다는 주변의 증언도 있었고 가끔씩 집에 있을 때 자기한테 대답하는게 아닌 것 같은 이상한 평소에 쓰지 않는 말투를 쓰고 그러거든요 부인이 그래서 '우리 와이프가 좀 아픈가?' '이상한데?' 하는 생각을 하기는 합니다 여자는 남자와의 지속적인 대화를 통해서 치유를 하기도 하고 점점 날이 갈수록 '근데 도대체 이 사람은 누구지?' 하는 의구심이 커집니다 제가 말씀드린 줄거리를 통해서 '이 책은 사랑, 결혼, 현실에 대해서 다루고 있구나' 라는 생각을 하실 것 같아요 저는 이 3가지 중에서 크게 사랑과 현실에 있어서 초점을 많이 맞추면서 이 책을 읽었는데요 현실을 이야기하자면 아이가 없는 부부를 봤을 때 여자에 대해서 쏟아지는 시선들 뭔가 시댁에서 시부모가 그 여자에게 원하는 이야기들 이런 것들이 적혀있는데 그거를 보면서 '맞아 현실이 이렇지' 라는 생각을 하곤했습니다 38쪽과 75쪽에 아주 명확하게 나와있는데요 38쪽을 보면 "생명은 부모가 결혼을 했든 안 했든 똑같이 소중한 것이죠" "그건 공동체가 책임질 문제입니다

" "사랑의 결실로 태어난 아이에게 부모의 결혼 여부를 묻는 것은 미개한 짓입니다" 38쪽의 이 이야기는 불임 부부에게 한정되어 있다라고 말하기는 어렵고 확장된 현실이라고 말씀드릴 수 있을 것 같은데요 흔히 우리가 미혼모라든지 이런 결혼을 하지 않고 아이를 키우는 사람들을 봤을 때 '그러지 말아야지' 하면서도 보내는 시선들이라든지 아니면 아무 죄책감 없이 보내는 시선들이 있잖아요 왜 저 나이에 애를 낳아서 저러고 살지? 저 애는 무슨 죄야? 아이를 봤을 때도 "너 부모님은 뭐 하셔?" 이래서 뭐 "엄마랑 둘이 살아요" 이렇게 하면은 쏟아지는 사회적인 편견 어린 시선들이 있잖아요 그런 것을 38쪽에서 한 번 언급한다는 느낌을 받았습니다 그리고 말씀드린 75쪽 같은 경우에는 "손주 한 명 못 낳는 애가 뭐가 잘났다고 빳빳이 고개나 들고" "아무튼 배운 거 없는 애들이" 라고 말을 합니다 이거는 남편의 어머니, 그러니까 여자주인공의 시어머니가 하는 말인데요 이게 너무나도 현실적이었어요 우리가 불임 부부를 봤을 때 남자에 원인이 있어서 불임이 될 수도 있고 여자에 원인이 있어서 불임이 될 수도 있는데 그냥 대부분의 경우에는 '여자가 아기를 못 가진다'라고 생각을 하고 그리고 특히 모든 가정이 그런 것은 아니겠지만 시댁에서 뭔가 아이를 원하는 경우가 많잖아요 뭔가 주변이나 미디어를 봤을 때는 친정에서 아이를 원하지만 딸에게 부담을 주지 않으려고 그래~ 이렇게 하는 경우가 많은데 시댁 같은 경우에는 어떻게 보면은 자기 친자식이 아니니까 조금 더 편하게 말을 하는 것 같아요 "너네 아이는 언제 가질거야?" "너네 아이 못 갖는 거 문제 있는거 아니야?" "니 땜에 아니야? 우리 아들은 문제 없어" 이렇게 하는 경우가 많단 말이죠 그래서 75쪽을 보면서 '이 세상에 이런 말도 있어?' '누가 이런 말을 해?' 라는 인식이 되는 사회였으면 좋겠다 이게 너무나도 가상의 이야기라서 '아 진짜 소설이네' 라는 생각이 드는 그런 현실이었으면 좋겠다 라는 생각이 들었습니다 제가 아까 현실 말고 사랑에도 포커스를 맞췄다라고 했는데요 사랑을 좀 더 결혼을 포함시킨 내용으로 바라볼 수 있을 것 같아요 37쪽에 이런 문장이 나옵니다 "사랑하는 사람들끼리는 결혼하지 않는 세상이 더 나을지도 모릅니다" 이것은 남자가 한 이야기인데요 결혼을 우리는 흔히 사랑의 결실이라고 합니다 누군가를 너무 사랑해서 하루라도 더 있고 싶어서 혹은 이 사람과 조건이 맞아서 나의 뭔가 현실적인 뭔가를 해결해줄 수 있을 것 같아서 우리는 결혼을 하고는 하는데요 아무리 사랑해서 결혼을 한다고 해도 늘 그 사랑이 한결같이 유지되지는 않고 이혼을 한다든지 내가 몰랐던 이 사람의 모습을 발견함으로써 내가 결혼을 후회한다든지 하는 여러가지 모습들이 결혼 생활에서 나오는데요 사랑하는 사람들은 처음에 기대하는 것들이 있죠 이 사람이 연애 때 나한테 이렇게 했으니까 결혼해도 이렇게 잘해주겠지? 연애 때 내가 막 아프다고 하면 달려와주고 이랬으니까 결혼해서도 내가 아프다고 하면 죽도 만들어 주고 간호도 해주고 이렇게 하겠지? 라고 생각을 한단 말이죠? 그런데 막상 결혼을 했는데 '아 나 너무 아파' 이랬는데 "약 먹어 약 먹으면 나아" "나 너무 아파" 이랬는데 막 "아이 그냥 죽 시켜먹어" 이렇게 할 수도 있어요 그러면 이 사람은 '괜히 결혼했다' '내가 바란 모습, 내가 예상한 모습은 이게 아닌데' '이 사람은 왜 이렇게 해주지?'라고 그간의 뭔가 생각 환상, 기대감이 뭔가 다 무너질 수 있단 말이에요 그러면서 아주 큰 슬픔을 경험할 수 있는데요 그래서 "결혼하지 않는 것이 좋을수도 있습니다"라는 문장을 읽을 때는 이런 많은 생각이 들었어요 여러분은 이 문장에 대해서 어떻게 생각하시는지 아래 댓글로 남겨주세요 '내게만 보이는 남자'는 작가의 말을 포함해서 총 151쪽으로 되어있는 아주 짧은 소설입니다 그런데 흡입력이 굉장히 좋고 담고 있는 내용이 좋았어요 그래서 순식간에 읽어나갈 수 있었는데요 저는 이 책을 버스에서 오가면서 금방 읽었답니다 읽으면서 '영화 같다'는 생각이 들었습니다 뭔가 머리 속에 장면이 촥~ 그려지고 이거는 뭐 소설류를 읽다보면 당연한 건데 그런 영화같음이 아니라 '영화로 만들어지면 굉장히 재미있을 것 같다' '이거를 어떻게 표현을 해나갈까?' 이런 궁금증을 만들게 하는 그래서 영화를 보는 것 같은 책이었는데요 굳이 약간 분야를 나눠보자면 CGV아트하우스에서 상영해야할 것 같은? '그런 영화를 담은 책이다' 라는 생각이 들었습니다 아트하우스의 경우에는 기본적인 상업영화들도 많이 하지만 보통 많은 사람들이 찾지는 않는 그러나 사회에 메시지를 던져주는 그런 영화들을 많이 상영하는데요 이 책도 '많은 사람이 찾아올 것 같다'라는 느낌 보다는 사랑, 연애, 결혼, 현실에 대해서 누군가와 이야기할 수 있고 돌아볼 수 있는 책이다 라는 생각이 들었어요 그래서 아트하우스에서 상영하면 굉장히 좋을 것 같다 적합할 것 같다라는 저만의 결론을 내렸습니다 그리고 영화 측면에서 계속 말을 이어나가보면 이 책이 좀 아쉬운 점이 있는데요 호불호가 굉장히 명확하게 갈릴 부분이라고 저는 생각해요 굉장히 그냥 자연스럽게 받아들여지고 어디 하나 모난 구석이 있는 생각이 안 들거든요? 근데 결말이 열린 결말은 아닌데 '그래서 뭐라는 거지?'라는 생각이 들었어요 설명을 해주시거든요? 이 남자의 정체는 무엇이고 어떻게 해서 이 상황들이 벌어졌고 라고 소설 끝에 설명을 해주시는데 아 이런 거였구나! 이 남자가 이래서 이렇게 됐구나! 라는게 설명되는 것이 아니라 그래서어떻게 된 거예요? 그래

서 이 남자는 누구죠? 라는 생각이 계속해서 듭니다 뭔가 그런 거 있잖아요 영화들 중에서 막 잘 만들었고 이제 결말만 남았어 그래서 딱 결말을 봤는데 불친절한 영화들 있잖아요? 앞에서는 기승전이 아주 착실하게 만들어져가지고 다 이해가 되고 맞아맞아! 공감을 하고 있었는데 결말부에 중요한 소재에 대해서 설명을 하는 부분에서 "이랬어요 아시겠죠?" 이러고 딱 끝나는 느낌? 저만 이해를 못하나 싶어가지고 인터넷을 찾아봤는데 결말에 대해서 이해가 간다는 분들이 계셨고 이게 도대체 무슨 결말인지 모르겠다 하는 분들이 계셨거든요? 그래서 정말 결말에서 호불호가 확 갈렸는데요 저에게 호불호를 묻는다면 저는 불호까지는 아니지만 그래도 막 "와~ 호다!" 는 아니다라고 말씀드릴 수 있을 것 같습니다 저는 결말이 너무나도 어려웠어요 그래서 오히려 이 책의 영화번전이 굉장히 궁금해지고 기다려지는데요 영화에서는 아무래도 시각적으로 보여줄 수 있는 것들이 많잖아요 소설에서 어떻게 생겼고 어떤 작동 원리로 인해서 운영이 되는거고 그래서 이 사람은 이런 정체였고 이런 것이 있습니다 아시겠죠? 라고 아무리 설명을 해도 내가 상상할 수 있는 한계가 있단 말이에요? 내가 그동안 경험했던 것들 내가 봐왔던 것들 때문에 예를 들어서 여기서는 무슨 기계다 라고 했을 때 MRI 기계 CT 촬영기계 이런 식으로 생각을 할 수가 있는데 이 작가가 의도한 것은 전혀 다른 모양일 수 있고 전혀 다른 작동 체계를 가지고 있을 수 있단 말이죠 그래서 영화로 해설을 봤을 때 조금 더 알 수 있고 이 남자에 대해서 조금 더 공감할 수 있지 않을까 라는 생각이 들었습니다 그래서 '이 책은 영화로 만나보고 싶다'라는 생각이 들었어요 '내게만 보이는 남자'는 '사랑은 외로움의 완성이다'라는 말을 합니다 사랑? 외로움? 어떻게 병렬적으로 갈 수 있을까? 궁금하신 분들은 '내게만 보이는 남자'를 읽어보신다면 그 부분이 조금은 해결될 것 같습니다 제가 말씀드린 이 책의 줄거리 특징, 호불호가 나뉘는 지점에 대해서 이 책을 읽을지 말지 여러분들께서 '어 저는 이 책 읽으면 좋을 것 같아요' '이 책은 포기할래요' 이런 식으로 댓글을 달아주시면 다른 분들이 선택하실 때도 많은 도움이 될 것 같습니다 그럼 이렇게 책 리뷰를 마치고 저는 다음 영상으로 돌아오도록 하겠습니다