학습포스팅/가짜연구소

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Streamlined Data Ingestion with pandas의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터베이스에서 sqlalchemy와 Pandas를 활용해서 불러오기 SQL 언어의 기본적인 문법 1. Introduction to databases 데이터베이스로부터 가져오는 방법은 이전 강의에서 설명해놓은 부분을 참고하시면 좋을 것 같아서 해당 링크를 걸어놓겠습니다. 여기를 클릭하세요. 포스팅의 Extract 부분을 읽으시면 됩니다. 2. Refining imports with SQL queries 이번 강의에서는 SQL 언어에서 Data를 불러올 때 활용하..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Streamlined Data Ingestion with pandas의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 스프레드시트 데이터 불러오기 boolean 타입 다루기 Datetime 타입 다루기 1. Introduction to spreadsheets 스프레드시트는 엑셀 파일로 잘 알려져 있습니다. 스프레드시트는 테이블 형태로 되어 있으나, 공식이 적용된 경우도 존재하기 때문에 flat file과는 다르다고 볼 수 있습니다. 또한 하나의 엑셀 파일에는 여러 개의 스프레드 시트가 존재할 수 있습니다. 우선 엑셀 파일을 불러오기 위해서는 read_excel이라는 명령어를 사..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Streamlined Data Ingestion with pandas의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. Pandas 소개, Flat File에 대한 설명, CSV 파일 불러오기 read_csv의 다양한 argument 소개(usecols, nrows, skiprows, header, names) Flat Flie 불러올 때, 신경 써야 하는 부분 1. Introduction to flat files Pandas는 파이썬에서 데이터 처리를 위해 많이 활용되는 라이브러리입니다. 다양한 형태의 파일을 불러오고 전처리할 수 있고 row와 column으로 이뤄진 2차원 데..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 4에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. DataCamp에서 rating 시스템을 활용한 강의 추천시스템에 배운 것들을 적용하기 1. Course ratings DataCamp에서는 강의를 마치고 나면 강의에 대한 평가를 진행하게 됩니다. 이렇게 유저가 평가한 강의에 대한 정보를 기반으로 다음에 유저가 들을만한 강의를 추천해주는 시스템을 만들 수 있습니다. 시스템을 구현하기 위해서는 먼저, 평가 데이터를 가져오는 작업을 진행해야 하고, 그 다음으로 가장 추천하는 강의들을 찾는 작업을 진행합니다. 매일 동일하게 측..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 텍스트 파일, JSON 파일, Web, Databases에서 데이터 추출하기 Transforms의 종류, Pyspark에서의 Transform, table join 분석용 Database와 어플리케이션용 Database의 차이, MPP Databases, 변환된 데이터 프레임을 SQL 프레임으로 변경하기 Airflow에서 ETL function 구현하기 1. Extract 데이터를 추출한다는 것은 데이터 처리에 적합하지 않은 영구 저장소의 데이터를 메모리로 추출하는 것을 ..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터베이스, SQL과 NoSQL, schema 병렬 처리란 무엇인가? 병렬 처리를 위한 프레임 워크 1. Databases 앞에서 많은 강의에서 데이터베이스에 대한 내용을 다뤘습니다. 한번 더 정리하면, 데이터베이스는 데이터 엔지니어에겐 필수적인 데이터 관리 도구입니다. 데이터베이스의 기본적인 뜻은 빠른 검색을 위해 구성된 데이터 모음이라고 표현할 수 있습니다. 많은 데이터를 가지고 있으며, DBMS를 통해 검색할 수 있습니다. 파일 시스템과는 규모적인 측면이나 업무를 ..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터 엔지니어링의 개념 데이터 엔지니어가 사용하는 툴에 대한 내용 ETL Datacamp에서의 데이터 엔지니어링 1. What is data engineering? 만약 당신이 어떤 기업의 고객 이탈을 예측하는 데이터 과학자라고 가정해봅시다. 입사해보니, 데이터는 이곳저곳에 흩어져있으며, 분석에 최적화되어 있지 않습니다. 또한 레거시 코드(가독성이 떨어진 코드, 규약이 없는 경우, 임시로 코드를 작성한 경우)에 의해 데이터 손상이 일어나고 있습니다. 이러한 경우 누가 해..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. Processing data Scheduling data Parallel computing Cloud computing 1. Processing data 데이터 프로세싱은 가공되지 않은 데이터를 가공하여 의미있는 정보로 바꾸는 과정을 말합니다. 데이터 프로세싱 과정은 필요없는 데이터를 삭제하기도 하고, 메모리, 네트워크 비용 등의 최적화를 위해 진행하기도 합니다. 또한 다른 형태로 바꾸기 위한 변환 과정도 포함합니다. 데이터 레이크에 존재하는 데이터들을 가공하여 데이터 웨어하우..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터의 종류(정형, 반정형, 비정형) SQL Data warehouse, data lake 1. Data structures 가장 먼저, 정형 데이터는 쉽게 검색하고 구성할 수 있습니다. 열과 행으로 이뤄진 스프레드시트와 같은 엄격한 구조에 따라 입력됩니다. 각 열은 텍스트, 숫자, 논리 값 등 특정 유형의 값을 사용합니다. 이러한 정형 데이터는 관계를 표현하기 쉽습니다. 정형 데이터는 약 20% 정도의 비중을 차지하고, 각 데이터에 접근하거나 수정과 같은 작업을 수행할 때에..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터 엔지니어링은 무엇인가? 빅데이터와 어떻게 관련이 있는지, 데이터 엔지니어와 데이터 사이언티스트의 차이 데이터 엔지니어가 구축하는 데이터 파이프라인이란 무엇인가? 1. Data engineering and big data 어느 조직이든지 데이터는 아래와 같은 흐름으로 진행됩니다. 데이터 수집과 저장 (ex. 웹 트래픽, 설문조사 등 다양한 데이터를 수집하고 저장) 데이터 준비 (ex. 데이터 정리, NULL 데이터, 중복 데이터 확인, 데이터 형식 변환) 데이터 탐색 및 ..
Sooho_Kim
'학습포스팅/가짜연구소' 카테고리의 글 목록 (3 Page)