본문 바로가기
Data Science

[python] data science tutotial for beginners (1)

by 꼬마 고래 2023. 6. 29.

캐글에서 찾은 python 입문자를 위한  data science tutorial for beginners. (사이트는 맨 하단을 참조)

크게는 아래 5가지 Contents로 구성되어 있다. 

 

1. Introduction to  Python

2. Python Data Science toolbox

3. Cleaning Data

4. Pandas Foundation 

5. Manipulating Data Frames with Pandas

 

 오늘은 이 중 1번 Introduction to Python 코드를 따라하며 학습하자. 일단 처음 dataset을 불러오는 것부터 헷갈렸는데 같은 파일 내에서 불러오는 것으로 csv 파일을 불러와 코드를 따라갈 수 있었다. (단순히 저장하는 파일 내에 불러오고자 하는 .csv 파일을 넣고 pd.read_csv('파일명')으로 불러왔다는 이야기.) "subprocess" 라이브러리에 대한 것은 아직 잘 모르겠고, 오늘은 python에서 어떤 기본 라이브러리가 있고 이것이 의미하는 것이 무엇인지만 간단히 파악하기로 한다. 

 

1.1 Matplotlib 

: 데이터의 시각화(visualization)에 주로 활용되는 오픈 소스 라이브러리. 

matplotlib 실행
Line plot
scatter plot

1.2 Dictionary 

: 키(key)와 값(valus)의 쌍으로 이루어진 데이터 구조. 

딕셔너리는 다양한 방법으로 생성할 수 있으며 자주 사용되는 방식으로는 중괄호({})를 사용하거나, dict 생성자를 활용한다. 이렇게 생성된 디셔너리는 키를 활용하여 값을 확인, 추가, 삭제 등을 수행할 수 있으며, 해당 연산은 Time complexity가 낮아 파이썬 환경에서 매우 빠르게 실행된다.

dictionary

1.3 Pandas 

: 데이터의 2차 가공을 위해 전처리 하기 위한 목적의 라이브러리. 

꼭 판다스를 경유해야만 원하는 형태로 가공할 수 있다. 판다스의 대상은 (1)시리즈(series) 와 (2)데이터프레임(Dataframe)이다. series는 1차원 배열구조로 index를 사용하고, dataframe은 2차원 구조로 엑셀과 같은 스프레드 시트 형태를 가지고 있다고 생각하면 된다. 

pandas
while and for loop

이번 파트에서 배운 것: 

- how to import csv file 

- plotting line, scatter and histogram(matplotlib) 

- basic dictionary features (dictionary)

- basic pandas features (pandas) 

- while and for loops 

 

 

출처 : https://www.kaggle.com/code/kkomawhale/data-sciencetutorial-for-beginners