In [3]:
import pandas as pd
import numpy as np
pd.options.display.max_columns = 40
movie = pd.read_csv(r'C:\Users\user\jupyterpractice\EDA\Pandas-Cookbook-master\data\movie.csv')
열 이름 일목요연하게 정렬하기
- 가이드 라인
-
- 각 열을 연속 / 불연속에 따라 분류
- 연속 / 불연속 내에서 공통적인 열은 그룹으로 만들기
- 그룹 내 가장 중요한 열이 가장 먼저 나오게 하고, 범주형 열을 연속형보다 먼저 나오게 하기
-
- 추가로 볼 논문 : Tidy Data (http://bit.ly/2v1hvH5)
In [25]:
movie = pd.read_csv(r'C:\Users\user\jupyterpractice\EDA\Pandas-Cookbook-master\data\movie.csv')
In [26]:
movie.head(2)
Out[26]:
In [27]:
movie.columns
Out[27]:
In [28]:
# 불연속형 그룹
disc_core = ['movie_title','title_year', 'content_rating','genres']
disc_people = ['director_name','actor_1_name', 'actor_2_name','actor_3_name']
disc_other = ['color','country','language','plot_keywords','movie_imdb_link']
# 연속형 그룹
cont_fb = ['director_facebook_likes','actor_1_facebook_likes','actor_2_facebook_likes',
'actor_3_facebook_likes', 'cast_total_facebook_likes', 'movie_facebook_likes']
cont_finance = ['budget','gross']
cont_num_reviews = ['num_voted_users','num_user_for_reviews', 'num_critic_for_reviews']
cont_other = ['imdb_score','duration', 'aspect_ratio', 'facenumber_in_poster']
In [29]:
new_col_order = disc_core + disc_people + disc_other + \
cont_fb + cont_finance + cont_num_reviews + cont_other
# python 집합은 순서가 없으므로 같은지 확인하는 연산은 한 집합의 원소가 다른 집합의 원소와 동일한지 확인하는 것.
# 누락된 column이 없는지 확인한다
set(movie.columns) == set(new_col_order)
Out[29]:
In [30]:
movie2 = movie[new_col_order]
movie2.head()
Out[30]:
'Data Analysis > Exploratory Data Analysis' 카테고리의 다른 글
Pandas (5) Method Chaining (0) | 2021.09.29 |
---|---|
Pandas (4) Dataframe 연산 (0) | 2021.09.28 |
Pandas (2) Column 조작 (0) | 2021.09.24 |
Pandas (1) 데이터 정보 확인 (0) | 2021.09.23 |