본문 바로가기

About 배우고 익히는법/Python

KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv [출처] [직장인 렙업! 파이썬] KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv

오늘은 인터넷에서 CSV 파일을 다운로드해서, 필요한 정보만을 추출해서 정리하는 작업을 해보겠습니다.

코딩을 이제 배우기 시작하는 직장인의 입장에서 파이썬 문법 기초부터 차근차근 배워나가는 것도 필요하지만, 당장 실무에 적용할 수 있는 파이썬 라이브러리 위주로 집중 학습하는 것도 좋은 방법이라고 생각합니다. 
 
이런 관점에서 지난번에 사용했던 판다스(pandas) 모듈을 다시 한번 활용합니다. 지난번에는 판다스(pandas) 모듈의 read_html 함수를 사용하여 html 웹 페이지에 있는 모든 표를 가져오는 방법을 배웠는데요. 이번에는 read_csv 함수를 사용하여 CSV 파일을 읽어들이는 과정을 만나보겠습니다.  


CSV 파일 다운로드

오늘 활용할 데이터는 KOSPI 상장 주식 종목 리스트입니다. 한국증권거래소(KRX) 홈페이지에 들어가면 상장종목 현황(http://marketdata.krx.co.kr/mdi#document=040601)을 제공합니다. KOSPI와 KOSDAQ 종목을 구분하고 있고, 다운받을 컬럼 항목을 선택할 수도 있습니다. 파일 형식은 Excel과 CSV를 지원하는데 우리는 CSV 부분을 클릭해서 CSV 파일을 PC에 저장합니다. 이때 파일명을 'kospi_stock_code.csv'로 바꾸고 파이썬(Python) 실행파일이 위치한 폴더에 저장합니다.  
 
 
<KRX 한국거래소 상장종목 현황>

 
<'kospi_stock_code.csv' 파일>


파이썬 실행 코드 작성

다운로드한 CSV 파일을 살펴보면, 위와 같이 표(table) 형식으로 정리된 자료입니다. 파이썬에서 CSV 파일의 데이터에 접근하기 위해서는 파이썬이 인식할 수 있는 자료형으로 변환해주어야 합니다. 판다스(pandas)에서는 데이터프레임(dataframe)이라는 자료형을 주로 사용하기 때문에, read_csv 함수로 CSV 파일을 읽어 오면 데이터프레임(dataframe)으로 저장됩니다. 실행 코드는 주석을 제외하고 세 줄이면 충분합니다.  

# 판다스 모듈 불러오기 (편의 상, pd라는 이름으로 사용)
import pandas as pd
 
# csv 파일을 해석하여 dataframe으로 변환하고, stock_data 변수에 저장
stock_data = pd.read_csv('kospi_stock_code.csv')
 
#종목코드, 기업명 컬럼을 선택하여 stock_code 변수에 저장
stock_code = stock_data[['종목코드', '기업명']]
 
 
결과(stock_code) 확인하기 
 

 
stock_code 변수에 저장된 데이터프레임(dataframe) 내용을 확인합니다. 제일 왼쪽 컬럼(column)의 숫자는 인덱스(index)라고 부르며, '종목코드'와 '기업명'은 컬럼(columns)명이라고 합니다.   

데이터프레임에서 컬럼(열)을 선택할 때는 데이터프레임['컬럼명'] 형식으로 지정하는데, 종목코드만 선택하고 싶을 때는 stock_code['종목코드']라고 입력합니다. 로우(행)을 선택하려면 데이터프레임.iloc[인덱스]라고 입력합니다. stock_code.iloc[1]라고 입력하면 AJ렌터카에 대한 정보만을 선택해서 볼 수 있습니다.     

요약하며...
 
코드를 모아서 정리하면 모두 3줄입니다. 다음 포스팅에서는 종목코드를 이용하여 개별 주식 종목에 대한 정보를 가져오는 방법에 대해서 알아보겠습니다.