2. 데이터 분석 기초

dropna() 메서드와 duplicated() 메서드로 nan 결측치와 중복값 없애기

yongmuni 2024. 10. 19. 16:47
import pandas as pd

a_df= pd.read_csv('filename', incoding= UTF-8)

a_df2=a_df.dropna(axis=1 ) - 열의 내용 중 nan 값이 하나라도 있으면 드랍한다. 

a_df2=a_df.dropna(axis=1 , how ='all' ) - 열의 내용이 모두 nan 일 경우 드랍한다.

axis=0 으로 바꾼다면 nan 이 포함된 행이 드랍(삭제) 될 것이다.

axis=0은 기본 형태이므로 행이 삭제되길 원한다면 dropna() 로 비워두어도 된다.

 

#데이터 프레임의 중복된 행 찾기

sum(df.duplicate())

결과 : 0 - 출력된 값이 이라면 중복된 행이 없다는 것 

 

dup_rows = df.duplicate(subset=[ ] , keep = False)

 keep 매개변수를 False로 설정하면 중복인 행들이 True 값으로 반환된다. 다시말해 중복된 행들을 제외하지 않고 식별하게 됨.

 

원본 데이터프레임에 dup_rows 로 필터링하게 되면 중복된 행들만 출력될 수 있다.

##불리언 인덱싱