Bigdata – hadoop in tamil (2019)

안녕 당신은 명확하게들을 수 있습니다? 누구든지 채팅에서 확인할 수 있습니까? 네 들려요 승인 승인 고마워 고마워 이 세션은 타밀어의 빅 데이터 하둡 전용입니다

나는이 타밀어 에서이 빅 데이터 세션을 가지고 매우 기쁘게 생각합니다 우리는 bigdata hadoop에서 주제를 시작할 것입니다 요즘 왜 유명한 지

How to Become a Data Scientist in 2019? | Learn Data Science | Data Science Tutorial | Intellipaat

데이터 과학의 세계에 오신 것을 환영합니다 데이터 과학은 최근 몇 년간 연구의 트렌드 분야였습니다

이는 우리가 지속적으로 생성하는 데이터의 양과 컴퓨팅 성능 이는 기술 발전으로 가능합니다 그러나 데이터 과학이란 무엇입니까? Uber에서 타는 것을 예약 할 때 어떤 일이 일어나는지 생각해보십시오 휴대 전화에서 Uber 앱을 열고 어디로 가고 싶은지 앱에 알립니다 우버는 가장 가까운 택시를 찾으려고합니다

그 이후로가는 길은 당신을 데리러 목적지로 데려다줍니다 간단했다 그러나 배경에서는 겉으로보기에는 단순한 작업이 산을 모아서 수행됩니다 다양한 소스의 데이터 전화기,지도 및 교통의 역사적인 흐름과 놀이기구에 대한 수요와 마찬가지입니다 이 데이터로 현대 컴퓨터는 가장 가까운 운전자를 계산하도록 프로그래밍되어 있습니다

귀하의 위치와 목적지로가는 가장 좋은 경로 그것이 걸리는 시간과 당신이 지불해야 할 시간 즉 이것은 데이터 과학으로 가능하게됩니다 데이터 과학에는 수많은 다른 응용 프로그램도 있습니다 그것은 통계의 교차점에 있으며, 데이터 분석 및 기계 학습

함께 일하는 과학적 방법, 모델 및 알고리즘의 조합입니다 데이터에서 실행 가능한 비즈니스 통찰력을 추출합니다 미국은 140000 ~ 190000 명의 사람들이 부족한 상태에 처해있다 분석 기술 효과적인 의사 결정을 내리기 위해 큰 데이터를 분석 할 수있는 500 만 명의 관리자가 있습니다

데이터 과학자의 평균 급여는 약 118000 달러입니다 그래서 직업으로서의 데이터 과학에 여전히 관심이 있습니다 계속해서 누가 데이터 과학자가 될 수 있는지에 대해 자세히 알아보십시오 데이터 과학자가 중요한 이유

데이터 과학 라이프 사이클이란 무엇입니까? 얼마나 큰 데이터가 데이터 과학 혁명을 주도하고 있습니다 데이터 과학 경력 전망 데이터는 우리 세대의 석유입니다 데이터 과학은 오늘날의 디지털 기반 세계에서 필수 불가결 해지고 있습니다 기업이 소비자 행동을 이해하고 메시징을 미세 조정하며 새로운 시장을 확보하도록 지원 몫 데이터 과학자가되기

데이터 과학자가되기 위해 기술적 배경을 가질 필요는 없습니다 당신이 필요로하는 것은 심층적 인 지식과 수학, 분석적 추론 능력 많은 양의 데이터로 작업 할 수 있습니다 그것은 또한 강한 지적 탐구를하는 데 도움이 될 것입니다 데이터 엔지니어링, 시각화 능력 및 훌륭한 비즈니스 통찰력에 대한 지식 기술적이지 않은 배경에서 왔을 경우 R을 사용할 것입니다

기술적 인 배경을 가진 사람이라면 python과 r을 사용할 수 있습니다 가능성을 이해하고 올바른 질문을하는 것입니다 최고의 답을 찾으십시오 모든 회사에 데이터가 넘쳐납니다 그리고 그들은 그들이 무엇을 해야할지보다 많은 데이터를 가지고 있습니다

따라서 업계의 업종에 관계없이 데이터 과학은 조직의 미래 성공 데이터 과학자들은 비용 절감, 새로운 시장 진출 및 고객 인구 통계에 대한 새로운 방법을 모색합니다 새로운 제품 또는 서비스 출시 데이터 과학은 또한 아동 복지 및 예측과 같은 사회적 및 의학적 응용을 발견했습니다 진단 그래서

일반적인 데이터 과학 라이프 사이클은 어떻게 생겼습니까? 데이터 발견 단계는 관련 데이터의 다른 소스에 대한 검색을 포함합니다 구조화 된 데이터 또는 구조화되지 않은 데이터 그런 다음 특정 데이터 세트를 분석에 포함시키는 결정을 내립니다 데이터 준비에는 서로 다른 소스의 데이터를 공통 형식으로 변환하는 작업이 포함됩니다 데이터를 표준화합니다

이상 징후를 조사하고 함께 작업하는 것이 더 적절하도록하십시오 데이터 과학 모델은 통계, 물류 및 선형 회귀를 사용하여 작성됩니다 다른 수학적 기술들 사이의 미분 적분 적분법 R, Python, SRS, SQL, Tableau 등의 도구를 사용할 수 있습니다 실전 단계에서 일을 얻는 것은 데이터 모델의 효율성 및 결과를 제공 할 수있는 능력

모델을 다시 작성해야하는 경우 모델 작동 여부를 확인해야합니다 데이터 과학자는 다양한 팀과 연락하여 원활하게 의사 소통 할 수 있어야합니다 조직의 핵심 이해 관계자 및 의사 결정권자들에 대한 그의 발견 데이터 과학의 또 다른 중요한 요소는 일련의 규칙 과정 인 알고리즘입니다 특정 문제를 해결할 수 있습니다 중요한 데이터 과학 알고리즘에는 회귀 분석, 분류 및 클러스터링 기법

결정 나무와 임의의 숲 감독, 감독 및 보강 학습과 같은 기계 학습 기술 이 외에도 조직이 자신의 서비스를 제공하기 위해 개발하는 많은 알고리즘이 있습니다 독특한 필요성 빅 데이터는 데이터 과학 혁명에 의해 주도됩니다 빅 데이터는 데이터 과학의 부상을 주도하는 엔진입니다

Hadoop은 대부분의 조직에서 널리 사용되는 큰 데이터 프레임 워크입니다 Hadoop은 데이터의 처리와 저장이 모두 분산 된 방식으로 작동합니다 범용 하드웨어에 분산되어 있습니다 Hadoop은 쉽게 확장 가능하고, 경제적이며, 내결함성이 있으며 안전합니다 Hadoop은 데이터 저장 및 사용을위한 Hadoop 분산 파일 시스템 또는 HDFS로 구성됩니다

데이터 처리를 위해 map reduce 또 다른 새로운 프레임 워크는 Apache Spark입니다 Apache Spark는 최대 100 배 빠른 속도로 선전되었습니다 지도 축소보다 불꽃

반복 처리가 빠르고 효율적으로되도록 데이터와 RAM을 저장합니다 또한 데이터 처리를 위해주기적인 그래프 또는 DAG를 직접 배치합니다 데이터 과학자들에게는 엄청난 수요와 공급 불일치가 있습니다 이로 인해 데이터 과학자들의 급여가 업계 최고입니다 아마존, 구글, 페이스 북, 마이크로 소프트와 같은 최고 기업들은 다른 사람들과 기술 공간을 같이한다

엑손 모바일 Visa, Boeing, General Electric 및 Bank of America는 적극적으로 데이터 과학자를 고용하고 있습니다 이제 데이터 과학, 왜 데이터 과학이 필수적인지에 대해 배웠습니다 데이터 과학 라이프 사이클, 빅 데이터와의 관계 이 유망한 영역에서 여행을 시작하고 경력이 크게 성장할 때입니다 Intellipaat은 선도 산업의 도움으로 설계된 데이터 과학 교육 과정을 제공합니다

데이터 수집, 탐험, 논쟁의 핵심 기술을 배우는 데 도움을주는 전문가 및 데이터 시각화 또한 통계 분석, 예측 모델링, 기계 학습을 마스터하게됩니다 데이터 과학자에게 필요한 모든 기술이 필요합니다 고맙습니다 문의 사항

언제든지 저희에게 연락하십시오

New Feature Offerings in SQL Server 2019

>> 안녕하세요, 저는 Rony Chatterjee입니다 Microsoft SQL Server 팀의 선임 프로그램 관리자

오늘은 우리의 SQL Server 2019 제품 오퍼링 Azure Data Studio에서 크로스 플랫폼 다중 데이터베이스 도구 데이터 엔지니어 및 데이터 과학자들에게 힘을 실어 주도록 설계되었습니다 SQL Server 2019가 Kubernetes에 배포되었습니다 유연성을 제공 구내 또는 클라우드에서 실행됩니다 Azure Data Studio의이 인스턴스에서, 두 개의 SQL Server 인스턴스에 연결되어 있습니다

Kubernetes 클러스터의 Spark HDFS 엔드 포인트 SQL Server 2019는 다음을 제공합니다 엔터프라이즈 데이터에 대한 통일 된 뷰 데이터베이스에 저장된 관계형 데이터 또는 큰 데이터는 HTFS 클러스터에 저장됩니다 SQL Server 2019를 사용하면 Oracle, Teradata 및 MongoDB와 같은 다른 데이터 소스

이 예에서는 Oracle에서 데이터를 가상화합니다 데이터 가상화는 데이터 품질, 데이터 보안 및 데이터 개인 정보 보호 가상화하려는 데이터를 선택하면, 나는 지금 쉽게 쓸 수있다 실제로 수행 할 간단한 SQL 쿼리 오라클 내 원격 서버의 결과를 쿼리하십시오 데이터가 SQL Server에 있으면, 나는 간단한 최고 기록을 쓸 수 있고 이것은 실제로 오라클에있는 데이터를 쿼리합니다

SQL Server 2019에서, 우리는 SQL 엔진은 HDFS에있는 파일을 읽습니다 이 예에서는 업로드 중입니다 HDFS에서 샘플 파일을 만든 다음 쿼리 할 SQL 쿼리를 작성하는 방법을 보여줍니다 우리가 방금 HDFS에 저장 한 파일에서 직접 HDFS에있는 파일들에 대해 외부 테이블을 생성하면, 우리는 이제 쉽게 가입 할 수 있습니다

이 데이터는 다른 관계형 데이터 소스와 함께 사용됩니다 이런 식으로 SQL Server 2019는 조인합니다 관계형 데이터베이스의 고가 데이터 HDFS에서 많은 양의 데이터를 보유하고 있습니다 SQL 2019는 또한 확장 가능한 컴퓨팅 및 스토리지를 통해보다 빠른 데이터 처리를 지원합니다 SQL Server 2019는 첫 번째 릴리스입니다

우리는 SQL과 Spark를 가져오고 있습니다 함께 쿼리 기능을 제공합니다 관계형 및 대형 데이터에 대해 확장 가능한 스토리지를 제공합니다 Azure Data Studio, HDFS에서 내 파일을 쉽게 탐색 할 수 있습니다 클릭 한번으로 노트북에서 파일을 분석하기 시작하십시오

Azure Data Studio 내에서, 우리는 통합 노트북 뷰어를 SQL Server 2019 클러스터에 원활하게 연결합니다 PI 스파크 커널에 부착되어있어 클러스터에 대해 Spark 작업을 제출하십시오 데이터 과학자들이 많이 씁니다 데이터를 준비 할 시간을 갖습니다 Azure Data Studio에서, 우리는 더 쉽게 데이터 과학자들이보다 생산적이되도록

샘플 파일을 보여 드리겠습니다 우리는 이것을 분석하려고합니다 보시다시피, 이 파일의 형식이 올바르지 않습니다 분모가 많고 공백이 많습니다 이 파일을 처리해야한다면, 복잡한 정규 표현식이 필요합니다

그래서, 우리가 한 것은 우리가 가지고있는 것입니다 통합 AI 및 ML 패키지 Microsoft Research의 프로그램 합성 우리의 노트북 제공합니다 내 파일을 사용하여로드 할 수 있습니다 프로 코드 가속기와 나는 프로가 할 수있는 예제 파일 데이터의 패턴을 쉽게 배우고 찾을 수 있습니다 프로는 내가 배우는 샘플 코드를 배우고 생성합니다

다음에 피드를 사용할 수 있습니다 그 특정한 파일에 그리고 마지막으로, 그냥 내 특정 파일 형식이 지정되지 않은 경우 구조가 있습니다 우리의 노트북 뷰어 인 Azure Data Studio는, 목성 생태계와 통합되어 우리에게 150 만권 이상의 노트북에 액세스 할 수 있습니다 고객이 노트북에 설치 가능 맞춤 AI 및 ML 패키지 시각화, 도서관을 포함하여 Azure Data Studio에서, 우리는 고객을 위해 간단하게 만들었습니다 클러스터에 대해 Spark 작업을 제출합니다

우리는 부유 한, 스파크 작업 그래프 뷰어 고객이 제출 한 Spark 작업을 모니터 할 수 있습니다 오늘의 데모에서는 우리가 SQL Server 2019 및 스파크 사용 통합 데이터 플랫폼으로 통합 Kubernetes에서 실행하는 방법과 Azure Data Studio는 다음을 제공합니다 데이터에 대한 완벽한 경험 고맙습니다

SQL Server 2019 meets AI and Big Data | Best of Microsoft Ignite 2018

(낙관적 인 음악) – 안녕하세요 Microsoft Mechanics Live에 오신 것을 환영합니다! 다음에 오면 우리는 도약을 할 것입니다

우리는 앞으로 도약을 할 것입니다 SQL Server에서 그 다음 도약, 큰 데이터 기능을 보여 드리겠습니다 이제는 HDFS와 Apache Spark가 포함 된 SQL에 내장되어 있습니다 데이터 가상화를위한 새로운 접근 방식 데이터를 쉽게 통합 할 수 있습니다 여러 데이터 소스에 걸쳐 이동하거나 ETL을 수행 할 필요가 없습니다

그래서, 아주 멋진 것들 그리고 나랑 같이하자면 트래비스 라이트 SQL Server 팀에서 크고 따뜻한 환영을 받으십시오 – 안녕 (관객 박수) 고마워, 제레미

쇼에 돌아와서 기뻐요 – 그래서 우리는 실제로 많이 했어 최근 SQL Server의 진보라는 측면에서 볼 때, 플랫폼 추상화 계층에서부터, PAL, 내가 그것을 부르는 것처럼, Linux에서 SQL Server를 실행할 수있게 해주는, 머신 학습은 이제 SQL Server에 내장되어 있습니다 그러나 큰 데이터 사일로에있는 모든 데이터를 가지고, 우리가 지금하고있는 이러한 기능을 추가합니다 통합 및 데이터 가상화 측면에서 SQL Server에, 많은 측면에서, 많은 방법으로, 훨씬 더 유용하고 심지어 더 큰 이정표입니다

많은 사람들에게 그것에 대해 더 많이 알려주시겠습니까? – 네, 우리는 데이터 통합 이러한 서로 다른 모든 데이터 사일로에서 데이터의 양은 어디에서나 엄청나 다 그래서 우리는 데이터 통합에 대한 우리의 여정을 정말로 시작했습니다 다시 SQL Server 2016, PolyBase 기능을 도입했을 때, SQL Server에 쿼리를 발행 할 수 있습니다 SQL Server가 돌아 서게됩니다

HDFS에서 데이터를 쿼리하고 질의합니다 Cloudera 또는 Hortonworks 클러스터처럼 이제는 SQL Server 2019를 사용하여, 우리는 당신을 더욱 쉽게 해줍니다 모든 데이터 통합 주위를 움직이지 않고도 그리고 우리는 아주 새로운 아키텍처를 가지고 있습니다

그것은 당신에게 큰 개선을 제공하도록 설계되었습니다 성능 및 확장 성 캐싱 및 병렬 처리를 통해, 뿐만 아니라 탄력적으로 다시 계산할 수있는 계산 및 SQL Server 용 저장소 계층이 있습니다 – 아주 멋지다 이 모든 것이 어떻게 구조적으로 작동하는지 설명하지 않는 이유는 무엇입니까? – 좋아, 좋아 우리는 두 가지 방법으로 이것을합니다

첫째, 우리는 SQL Server 병렬 처리 엔진 큰 데이터 구성 요소로 Spark와 HDFS 같은 오픈 소스 커뮤니티에서 이제 SQL Server와 함께 상자에 포함됩니다 이들은 SQL Server의 일부입니다 이번 주 큰 발표였습니다 둘째, 우리는 데이터 가상화 커넥터를 제공 할 것입니다 Oracle, Teradata, MongoDB와 같은 일반적인 데이터 소스의 경우, SQL Server 및 일반 ODBC 커넥터 당신이 더 쉽게 통합 할 수 있도록 SQL Server를 통해 이러한 모든 데이터 원본 ETL을 통해 데이터를 이동하지 않아도됩니다

– 큰 데이터로 인해 정말 대단해 이제 SQL Server에 포함됩니다 이제 데이터를 이동할 필요가 없습니다 별도의보고 데이터베이스를 만들 수 있습니다 모든 것을 그대로 유지할 수 있습니다

– 권리 따라서 데이터를 이동하고 변환하는 대신, 중복 된 데이터와 모든 종류의 물건을 만드는 것, 우리는 정말로 우리의 노력에 집중했습니다 데이터 가상화에 관한 데이터 통합 데이터 이동 대신에, 데이터를 그대로 유지할 수 있습니다 그래도 아직 액세스 할 수 있어야합니다 SQL Server와의 단일 지점에서

여기서 좋은 점은 우리가 정말로 이러한 쿼리의 성능 그 데이터를 캐싱하고 그것을 파티션함으로써 여러 SQL Server 인스턴스 전체에서 그 종류의 쿼리는 정말 빠르게 실행됩니다 또한 여러 데이터 소스의 데이터를 결합 할 수도 있습니다 이 캐시에 저장하면 공동 작업을 할 수 있습니다 예를 들어 일부 데이터를 가로 지르는 오라클의 캐시에 들어갑니다 다른 SQL 및 HDFS에서 가져올 수 있습니다

– 그래서 더 안전한 방법입니다 해당 데이터를 다시 영구 사본으로 만들지는 않습니다 유지 보수가 적고 ETL 작업이 적습니다 이 경우 ETL을 수행 할 필요가 없습니다 더 효율적인 저장 공간 니가 두 번이나 시작하지 않을거야

데이터는 실제로 쿼리 가능 라이브입니다 가상 캐시에 대해 신선도가 떨어지거나 구식이 될 수 없습니다 정확 할거야, 그렇지? – 그래, 맞아 거기에 많은 이점이 있습니다 자, 여기서 데모를 해보자

너에게 질의 할 수 있음을 보여줄거야 여러 데이터 소스에 걸쳐 그래서 저는 새로운 Azure Data Studio 내부에서 실행하고 있습니다 공식적으로 SQL Operations Manager로 알려져 있습니다 우리의 크로스 플랫폼 데이터베이스 도구입니다 MacOS, Windows 및 Linux에서 실행되는 오픈 소스입니다

그리고 여기, HPE 실험실과 연결되어 있습니다 HPE 클러스터가있는 곳 여기에는 SQL Server 2019 대형 데이터 클러스터가 실행됩니다 우리는 여기서 판매 데이터베이스에 갈거야 나는 그걸 마우스 오른쪽 버튼으로 클릭 할 것입니다 외부 테이블 만들기를 클릭합니다

이게 우리가 가지고있는 새로운 마법사를 가져올거야 그렇게하면 쉽게 할 수 있습니다 여기 오라클 유형을 선택하겠습니다 시간이 지남에 따라 여기에 더 많은 유형이 있습니다 그런 다음 여기에서 다음을 클릭 할 수 있습니다

이미 데이터베이스 마스터 키가 있습니다 그래서 나는 그걸 건너 뛸거야 나는이 이름을 줄거야 우리가 끌어들이 겠어 Oracle의 Oracle Inventory 데이터베이스 나는 서버 이름을 잡을거야

우리는 XE에 들어갈거야 여기서 데이터베이스 자격 증명을 만들 것입니다 우리는 SYSTEM과 admin123에 갈 것입니다 자,이게 뭐지? 실제로 Oracle 서버에 도달하고 있습니까? 해당 데이터베이스의 스키마를 검색합니다 테이블을 선택할 수 있습니다

우리가 동기화하고 싶어하는 것 예를 들어 여기에서이 인벤토리 테이블을 클릭하기 만하면됩니다 테이블을 선택할 수도 있습니다 우리는 그 테이블에 대한 스키마를 여기에서 볼 수 있습니다 우리가 원하는 경우 열 매핑을 할 수 있습니다

테이블의 이름을 바꿀 수도 있습니다 우리는 SQL Server 내부로 가져 오기를 원합니다 다음을 클릭하고 만들기, 이제 우리는 외부 테이블을 가지고 있습니다 우리 테이블 목록에 여기에 나타납니다 이제 우리는 가서 그 테이블을 질의 할 수 있습니다

– [제레미] 그리고 우리가 간다, 아주 차갑고, 아주 차가워 요 – HDFS를 통해 외부 테이블을 만드는 방법으로 넘어 갑니 다 좋아,하자 – 그걸하자 우리가 달릴 수있는 질문이있어

그리고 이것에 대한 좋은 점은 우리가, 우리는 여기에서 새로운 질의를 얻었습니다 우리는 내장 된 외부 데이터 소스를 가지고 있습니다 호출 된 SQL 저장 영역 풀, 이것이하는 일은 우리에게 SQL Server 인스턴스를 사용하여 HDFS 내부의 데이터를 쿼리하는 방법 실제로 모든 HDFS DataNode에 동일하게 배치됩니다 그것은 단지 내장되어 있습니다 특별한 일을 할 필요가 없습니다

읽기 전용 스키마 정의하기 우리가 파일에 적용하기를 원한다면 특정 디렉토리 또는 특정 파일에 저장됩니다 자, 이제이 테이블을 만들 수 있습니다 여기에 우리의 SQL에 연결하십시오 일단 그 테이블을 만들면, 우리는 그 테이블을 통해 쿼리 할 수 ​​있습니다 다른 유형의 테이블과 마찬가지로 그리고 지금, 우리가하고있는 일 우리는 실제로 HDFS에 도달하고 있습니까? 이 CSV 파일에 수백만 개의 레코드가있는 곳 이 디렉토리 안에 앉아있다

SQL Server로 다시 가져오고 있습니다 SQL Server에서 다른 유형의 테이블을 쿼리하는 것과 같습니다 – 그리고 거기에 있습니다 – 거기는 – 아주 멋지다

그래서, 이것이 얼마나 귀중한지를 알 수 있습니다 특히 규정 준수 요구 사항을 다룰 때 더욱 그렇습니다 너는 데이터를 옮기고 싶지 않아 해당 Oracle 데이터베이스 외부 또는,이 경우에, 당신은 움직이기를 원하지 않을 것입니다 실제로 모든 데이터

여기에서 쿼리 할 수 ​​있습니다 로컬에서 SQL로 효과적으로 보인다 좋은 점은 당신이 언급 한 것입니다 그 Spark와 HDFS는 정말 그 상자 안에 있습니다 그래도 어떻게 생겼지? 그 부분은 어떻게 작동합니까? -이 데모에서는 HDFS에 질의하는 것을 보았습니다

그것은 SQL Server의 일부입니다 또한 해당 데이터를 쿼리 할 수 ​​있습니다 Spark 엔진을 사용하여 조작하십시오 또한 해당 데이터 노드와 함께 배치됩니다 이제 공유 데이터 레이크가 있습니다

SQL과 Spark 간 여기서 모든 데이터가 HDFS에 저장됩니다 자, 이제 내가 너에게 보여주고 싶은 걸 우리가 사용할 다른 데모입니다 노트북을 사용하는 Data Studio, Spark 런타임과 상호 작용할 수 있습니다 좋아,하자 – 그래서 먼저, 나는 당신에게 노트북 경험을 보여주고 싶다

Azure Data Studio에 내장되어 있습니다 이게 내가 들어올 수있는 곳이야 Python이나 Scala 또는 R로 코드를 작성할 수 있습니다 여기에서 로컬로 실행할 수 있습니다 파이썬 3 커널을 사용하여 내 컴퓨터에서 덮개 밑 또는 Spark에 작업을 제출하여 실행할 수 있습니다

자, 너를 여기서 보여줄거야 Artiststxt라는 파일이 있습니까? 그것은 CSV 파일입니다 하지만 여기에는 아주 미친 데이터 구조가 있습니다 여기에 물건이 잔뜩 있어요

그것은 열을 정의하지만 이상한 방식입니다 공백이 잔뜩 있습니다 – [Jeremy] 그래서 거의 구조화되지 않았습니다 비록 그것이 CSV이지만 그래, 내 말은, 이건 엉망이야, 맞지? – [제레미] 그래

우리는이 연구 자료를 가지고있어 PROSE라는 Microsoft 연구에서 나옵니다 기본적으로이 데이터를 이해할 수있게 해줍니다 그것에 대해 몇 가지 코드를 실행하여 코드를 생성 한 다음 실행할 수 있습니다 이러한 유형의 파일에 대해 그것의 schematized 버전을 생성합니다

그렇게하기 위해, 저는이 PROSE 라이브러리를 여기에서 운영 할 것입니다 이것은 내부에 포함되어 있습니다 데이터 스튜디오 경험 노트 스파크 런타임 내부와 SQL 2019 내부 나를 위해이 파이썬 코드를 생성합니다 내가 여기 내려 가서 이것을 달릴 때, 해당 파일의 데이터를 데이터 프레임에로드합니다

그리고 내가 뭘 잘못 했니? 아, 나는 팬더를 맨 위에 놓쳤다 – 아마도 제 1 위 라인일까요? 팬더가 있어야 해 – [트래비스] 팬더가 있어야 해 – [Jeremy] 그렇지 않으면 팬더가 슬퍼집니다 자, 팬더를 포함시켜

우리는 거기에 갈 – 거기는 – 이제 데이터가 구조화되었습니다 우리는 실제로 그것을 이해할 수 있습니다 이렇게하면 SQL Server에서 쉽게 읽을 수 있습니다

이제 멋진 점은이 동일한 파이썬 코드를 사용할 수 있다는 것입니다 나는 Spark 런타임의 안팎으로 갈 수있다 HDFS의 상단에, 저기있는 파일에이 작업을 적용 할 수 있습니다 HDFS 브라우징 경험 실제로 HDFS를 탐색 할 수 있습니다 SQL 2019 큰 데이터 클러스터 안에 앉아있다

우리는 볼 수있다 Artiststxt 파일이 이미 있습니다 이제 물리적으로 가서 함수를 만들어 봅시다 스파크 내부에서 사용할 수 있습니다

우리는 똑같은 것을 실행할 수 있습니다 Spark 클러스터 안의 Artiststxt 파일을 통해 그리고 당신은 그것이 이제 모든 것을 도식화 한 것을 볼 수 있습니다 그리고 지금 내가 원한다면, 그것들을 CVS 파일로 저장하라 멋지고 아름다운 형식입니다

그래서 이것은 스파크 같은 것을 사용할 수있는 방법입니다 모든 데이터 준비 작업을 대규모로 수행합니다 Spark 인프라 전체에서 – 훨씬 더 좋아 이제 우리는 데이터를 준비했습니다 우리는 모두 그것을 좋은 형식으로 가지고 있습니다, 분석 할 수 있습니까? – 그래

그게 전부 요, 맞죠? 그래서, 우리는 우리가 그것을 분석 할 수있는 곳을 만들고 싶습니다 그리고 이것은 당신이 함께 결합 할 수있는 곳입니다 오라클의 다양한 데이터 세트, HDFS, 그런 다음이를 기계 학습 서비스에 제공하십시오 SQL Server에 기본 제공되는 여기에서 Python 또는 R 스크립트를 실행하여 모델을 교육 할 수 있습니다 이 모델을 SQL Server 내부에 다시 ​​저장할 수 있습니다

그것을 조작하기 위해, 그리고 나서 스토어드 프로 시저의 일부로, 실제로 해당 모델에 대해 데이터를 저장할 수 있습니다 어쩌면 거래의 일부로 또는 거기에 배치 처리 일 이제 다른 데모를 살펴 보겠습니다 전자 상거래 사이트 시나리오가 있습니다 우리가 보게 될 우리는 기계 학습 서비스를 사용할 것입니다

클릭 스트림에서 행동 패턴을 예측하는 방법 우리 전자 상거래 사이트를 방문한 누군가의 데이터 자, 이제 피봇을 돌려 보도록하겠습니다 그래서 여기에 또 다른 스크립트가 있습니다 우리는 이미 미리 작성했습니다 이걸 가져와 봅시다

그래서 이것으로 우리는 우선, 모델 훈련을 시작할 수 있습니다 그래서 내가 모델 훈련을 시작할 때, 여기이 스토어드 프로 시저를 호출 할 것입니다 기차 도서 카테고리 방문객이라고합니다 나에게 맞는 모델을 만들어 낼거야 해당 모델에서 생산물의 출력을 볼 수 있습니다

글쎄, 한번 보러 가자 그게 실제로 여기에 보이는 것 그래서이 저장 프로 시저가하는 일 그것은 갈 SQL 쿼리를 정의하는 것입니다 내 데이터베이스에서 훈련 데이터를 얻으십시오 그런 다음 R 스크립트를 호출합니다 이 기능의 일부 기능을 수행하게 될 것입니다

로지스틱 회귀 알고리즘을 사용합니다 그런 다음 우리가 한 번 실행됩니다 이 sp_execute_external_script 바로 여기, 이 R 코드가 실행됩니다 우리가 보내고있는 훈련 데이터와 모델을 만들 것입니다 우리는 데이터베이스 내부에 저장한다

여기에 sales_models 테이블에 삽입합니다 일단 우리가 그 일을 끝내면 여기로 돌아갈 수 있습니다 이 데이터에 대한 예측을 할 수 있습니다 여기에이 저장 프로 시저를 사용합니다 모든 클릭 스트림 비헤이비어를 기반으로 볼 수 있습니다

우리가 원시 파일에 HDFS에 앉아있는 경우, 우리는 그것을 끌어 올려 모델에 대해 점수를 매겼습니다 실제로 예측할 수 있습니다 누군가의 클릭 스트림 행동을 기반으로 우리가 그들에게 제안해야할지 안할 지 여부 예를 들어, 책 카테고리를 방문하십시오 그래서 이것은 우리가 함께 할 수있게 해줍니다 오라클의 인벤토리 시스템 데이터 그리고 클릭 스트림 데이터가 포함 된 HDFS 데이터 원시 형식, CSV 파일, 그런 다음 기계 학습 서비스에 제공하십시오

SQL Server 내부에서 해당 모델을 생성하고, 이제는 사용자 행동에 점수를 매길 수 있습니다 – 매우 멋지다 그래서 거대한 건축 학적 진보를 보았다 SQL에 대한이 방향의 관점에서 볼 때, 실제로 큰 데이터를 구문 분석하고 분석 할 수 있습니다 그것을 움직이지 않고 또는 많은 ETL 작업을 수행해야합니다

이것은 정말 거대합니다 – 그래, 큰거야 (웃음 스피커) 말장은 미안하지만 그래, 크다, 거대하다 이것은 실제로 다른 차원과 같습니다 SQL Server에서 다음으로 확장 이 캐싱 기능을 사용하면 당신은 당신의 성과의 탄력적 인 확장 성을 얻습니다

컴퓨팅 및 스토리지 확장 성, 모두이 기본 아키텍처 위에 구축되었습니다 그래서 정말로, 만약 당신이 그것에 대해 생각한다면, SQL Server는 더 이상 데이터베이스가 아닙니다 실제로 통합과 비슷합니다 완벽한 분석 플랫폼 이 모든 데이터를 통합하는 데 사용할 수 있습니다 – 권리

다시 말하면, 우리가 크로스 플랫폼에 관해 생각할 때, Windows 나 Linux 내부에서 SQL을 조작하는 것 뿐만이 아닙니다 또는 여러 운영 체제 유형, 다른 데이터베이스에 대해서도 마찬가지입니다 그래서 누군가가 더 많은 것을 배우고 싶다면 이러한 기능에 대해 실제로 시도해보십시오 직접 체험 해보세요 오라클에 연결하고 Spark 및 HDFS를 사용하기 시작하면, 그들은 더 많은 것을 어디서 배울 수 있습니까? 그들이 지금 실제로해야 할 일은 무엇입니까? 실습을하기 위해? – 예, 흥미 진진한 소식

이번 주에 SQL Server 2019 미리보기를 발표했습니다 Windows 및 Linux에서 SQL Server를 사용할 수 있습니다 그리고 큰 데이터 클러스터 부분에 관심이 있다면, 우리는 당신이 가입하는 것이 좋습니다 이 링크의 조기 입양 프로그램은 여기 그러면 우리가 당신에게 지정할 수 있습니다 우리 팀의 프로그램 매니저와 일하기 그리고 나서 우리는 정말로 당신과 함께 실습을 할 수 있습니다 이러한 대형 데이터 클러스터 기술을 평가하려고 할 때 그 경험이 어떻게 진행되는지 당신에게서 배울 수 있습니다

– 쇼에 다시 오게되어 굉장해, 트래비스 고맙습니다 와줘서 고마워, 그리고 그것은 우리가 오늘의 쇼를 위해 항상 가지고있는 시간입니다 – 감사합니다 여러분 – 안녕히 계세요

(관객 박수) (낙관적 인 음악)