학습포스팅/가짜연구소

해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Unit Testing for Data Science in Python의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. unit test 관리하기(클래스 형태) 원하는 부분만 테스트하기 xfail, skipif 데코레이터 Travis CI, Codecov 1. How to organize a growing set of tests? 이전 강의들을 통해서 다양한 unit test를 작성해봤습니다. 이러한 unit test를 체계적으로 유지하기 위한 전략이 필요합니다. src 폴더 안에 이전 강의에서 작성했던 다양한 함수들을 포함하게 됩니다. 하지만, 이전에 작성했던 unit tes..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Unit Testing for Data Science in Python의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. assert문에서 message 출력하기 assert할 때 소수점 문제 해결하기 unit test 효율적으로 사용하기 TDD 1. Mastering assert statements assert boolean_expression, message 이전 강의에서는 assert문으로 boolean 표현식만 사용했습니다. 추가적으로 boolean 표현식 뒤에 추가적으로 인수를 사용할 수 있습니다. message는 boolean_expression이 에러가 발생했을 때,..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to Bash Scripting의 chapter 4에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. function in Bash script scope in Bash script Cron에 job 추가하기 1. Basic functions in Bash Bash script에서 함수를 생성하는 방법을 다룹니다. Bash에서 함수의 형태는 다음과 같습니다. #1 function_name () { #function_code return #something } #2 function function_name { #function_code return #something } #3 ..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to Bash Scripting의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 조건문 사용하기 반복문 사용하기 CASE statement 1. IF statements Bash script에서도 조건문에 의해 실행할 지 결정할 수 있어야 합니다. 이러한 기능을 위해 IF 조건문을 활용할 수 있습니다. if [ CONDITION ]; then # SOME CODE else # SOME OTHER CODE fi 조건문은 일반적으로 파이썬과 동일하게 사용하지만, CONDITION 앞 뒤로 공백이 존재해야 하며, 조건문 이후에는 세미콜론을 반드시 적어줘야 합니..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to Bash Scripting의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 변수 할당하기, quote 차이 Bash에서 숫자 연산하기(expr, bc) Bash에서의 array 형태 2가지(list, dict) 1. Basic variables in Bash Bash의 할당은 다른 언어와 유사합니다. var1="Moon" echo $var1 > Moon 위의 방식처럼 = 를 기준으로 좌측에는 변수명, 우측에는 넣고싶은 값을 넣어주면 할당이 됩니다. 다만, 주의해야할 점은 =를 기준으로 좌우에 공백이 있으면 안됩니다. 또한 변수에 접근하기 위해서 $v..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to Bash Scripting의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. Bash script 작성법 streams & arguments 1. Introduction and refresher Bash가 무엇이며, 왜 중요할까요? Bash는 오래전에 개발되었지만 현재에도 매우 인기있는 쉘입니다. Bash는 명령을 하나씩 복사하여 붙여넣는 것 대신 단일 명령으로 프로그램을 저장하고 실행할 수 있습니다. Bash를 공부하기 위해서는 grep, cat, sed과 같은 기본 명령어를 알고 있는 것이 좋습니다. grep은 정규표현식 패턴 일치 여부를 확인하여..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data Processing in Shell의 chapter 4에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. command-line에서 파이썬 실행하기 pip로 패키지 설치하기 job scheduler: cron 1. Python on the command line 데이터 처리는 command-line에서 하는 것이 생산적이지만 예측 모델링과 같은 복잡한 작업은 Python에서 진행하는것이 더 쉽습니다. 이번 강의에서는 command-line에서 Python을 실행하여 두 개의 장점을 모두 활용할 수 있는 방법을 소개합니다. Python은 MacOS나 Linux에는 이미 설치가 되어 제공되지만..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data Processing in Shell의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. sql2csv csvsql 데이터베이스에서 가져오기 csvsql 데이터베이스로 보내기 1. Pulling data from databases csvkit 라이브러리에서는 SQL과 유사한 기능인 sql2csv를 제공하고 있습니다. sql2csv는 Microsoft SQL, MySQL, Oracle, PostgreSQL, Sqlite를 포함하여 다양한 SQL 데이터베이스에 접근할 수 있습니다. sql2csv는 PgAdmin과 TablePlus와 같은 데이터베이스 클라이언트를 거치지 않고도 ..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data Processing in Shell의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. csvkit(in2csv, csvlook, csvstat, csvcut, csvgrep, csvstack) 1. Getting started with csvkit csvkit은 command-line에서 데이터 처리를 위한 툴입니다. Wireservice가 Python을 사용해서 개발한 csvkit은 다양한 기능(데이터 변환, 처리 및 정리 기능)을 제공합니다. csvkit은 python 패키지이기 때문에 pip를 통해 설치할 수 있습니다. 이미 설치된 경우 최신 버전으로 업그레이드를 ..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data Processing in Shell의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 웹사이트에서 데이터 받아오는 방법 curl wget 1. Downloading data using curl curl(client for URLs)은 서버와 데이터를 주고 받는 유닉스 명령 툴입니다. 주로 HTTP 사이트, FTP 서버에서 데이터를 다운로드할 때 주로 활용됩니다. curl이 설치되어 있었다면, man curl을 쳤을 때, curl의 manual을 확인할 수 있습니다. curl은 아래와 같이 사용할 수 있습니다. curl [option flags] [URL] curl은 HT..
Sooho_Kim
'학습포스팅/가짜연구소' 카테고리의 글 목록