개발 & 데이터베이스/파이썬

[파이썬] Pandas 사용 방법과 실습 진행해보기

K.두부 2021. 12. 5. 02:23
반응형

Pandas 정의

고급 데이터 분석과 수치 계산 등의 기능을 제공하는 확장 모듈로서 C언어로 작성돼 있어서 파이썬으로 만들어진 라이브러리보다 처리 속도가 빠르고, CSV 파일 등의 데이터를 읽고 데이터 형식으로 변환해줌

 

실습 진행 (간단한 점 찍기)

1. iris.csv 파일을 다운로드해서 pd.read_csv("경로")에 넣어준다.

iris.csv
0.00MB

from sklearn.datasets import load_iris
import matplotlib.pyplot as plt # 차트, 그래프 모듈
import pandas as pd

iris = pd.read_csv("C:\\iris.csv") # iris.csv 파일 불러오기

plt.scatter(iris['Sepal.Length'],iris['Petal.Length']) #plt.scatter(X 좌표, Y 좌표) 점 찍기
plt.xlabel('Sepal.Length') # X 좌표 이름
plt.ylabel('Petal.Length') # Y 좌표 이름
plt.title('exam2') # 그래프 제목
plt.show() # 그래프 보이기

# sklearn datasets 서브 패키지는 scikit-learn 패키지 중 일반적인 참조 데이터셋을 load하는 모듈로 많은 샘플 데이터셋을 무료로 간편하게 다운로드 할 수 있게 도와줌

# iris 데이터를 사용하기 위해 sklearn datasets 패키지에서 load_iris 모듈을 import

※ 라이브러리 설치가 안되서 에러가 떠요! (방법 두가지)

1. Pandas 에 마우스를 가져다놓으면 생기는 메뉴에서 다운로드 클릭

2. 메뉴에서 설치

 ⒧ File -> setting -> Project: pythonProject -> Python Interpreter 클릭

 ⑵ 왼쪽 하단에 + 버튼을 클릭하면 팝업이 오픈, Pandas 검색 후 Install Package 클릭

 

실습 진행2 (색깔 별로 정리해서 점 찍기)
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt # 차트, 그래프 모듈
import pandas as pd

iris = pd.read_csv("C:\\iris.csv")  # iris.csv 파일 불러오기

# Species, setosa, versicolor, etc 색깔 별로 정리하기
cols = []
for s in iris['Species'] :
    choice = 0
    if s == 'setosa' :
        choice = 1
    elif s == 'versicolor' :
        choice = 2
    else :
        choice = 3
    cols.append(choice)

plt.scatter(iris['Sepal.Length'], iris['Petal.Length'], c=cols)  # c='색상', edgecolor='테두리색상', s='점크기'
plt.xlabel('Sepal.Length')
plt.ylabel('Petal.Length')
plt.title('scatter plot by Species')
plt.show()

# choice로 색상 변경이 가능함

# edgecolor와 s로 점 테두리 색상과 크기를 변경할 수 있음

 

반응형