본문 바로가기

About 배우고 익히는법/Python

(31)
환율 데이터 웹스크래핑 -pandas.read_html [출처] [직장인 렙업! 파이썬] 환율 데이터 웹스크래핑 -pandas.read_html 매일 반복되는 업무, 웹(web)에서 필요한 데이터를 자동으로 가져올 수 없나요?반복 업무를 단순화할 수 있는 방법에 대해서 직장인 누구라면 고민해 본 적이 있을 거예요. 예를 들어 직무에 따라서는 거시경제 지표(환율, 금리, 주가 등)를 수집하기 위해서 매일 아침 출근하자마자 서둘러서 여기저기 사이트를 옮겨 다닌 경험이 있으실 거예요. 웹사이트를 하나하나 찾아다니며 Ctrl + C, Ctrl + V를 여러 번 반복해서 엑셀에 옮기는 작업은 여간 귀찮은 일이 아닐 수 없습니다. 엑셀, 파워포인트 같은 오피스 직무 스킬에 파이썬(Python)을 하나 더 추가해보면 어떨까요. 파이썬이 PC에 설치되었다는 가정 하에서 포스팅을 이어가겠습니다. 환율정보 조회환율정보를 조회할 수 있는 웹사이트는 네이버, 다음 등..
KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv [출처] [직장인 렙업! 파이썬] KOSPI 주식 종목 리스트 가져오기 -pandas.read_csv 오늘은 인터넷에서 CSV 파일을 다운로드해서, 필요한 정보만을 추출해서 정리하는 작업을 해보겠습니다.코딩을 이제 배우기 시작하는 직장인의 입장에서 파이썬 문법 기초부터 차근차근 배워나가는 것도 필요하지만, 당장 실무에 적용할 수 있는 파이썬 라이브러리 위주로 집중 학습하는 것도 좋은 방법이라고 생각합니다. 이런 관점에서 지난번에 사용했던 판다스(pandas) 모듈을 다시 한번 활용합니다. 지난번에는 판다스(pandas) 모듈의 read_html 함수를 사용하여 html 웹 페이지에 있는 모든 표를 가져오는 방법을 배웠는데요. 이번에는 read_csv 함수를 사용하여 CSV 파일을 읽어들이는 과정을 만나보겠습니다. CSV 파일 다운로드 오늘 활용할 데이터는 KOSPI 상장 주식 종목 리스트입니다. 한국증권..
Pandas dataframe - 판다스 데이터프레임 활용 기초 [출처] [파이썬 데이터 분석] Pandas dataframe - 판다스 데이터프레임 활용 기초 오늘 사용할 데이터는 공공데이터포털(https://www.data.go.kr/)에서 다운로드한 "2016년 교통사고 데이터"입니다. 사망 교통사고 관련 사고유형, 발생일시, 피해자 수, 피해자 유형 등 다양한 항목에 대한 데이터입니다. 아래 파일을 다운로드하여 참고하시기 바랍니다. 2016년 도로교통공단_전국_사망교통사고 통계 데이터 (출처: 공공데이터포털)traffic_accident_2016.csv Pandas 라이브러리 불러 오기 import 명령을 사용하여 판단스 라이브러리를 pd라는 네임스페이스를 사용하여 불러 옵니다. (네임스페이스는 명령어를 간단하게 축약하여 사용하기 위한 개념입니다. pandas라고 full name을 입력할 필요가 없고, pd라는 약칭을 사용할 수 있게 됩니다.) impo..
국가통계포털(KOSIS) 시도별 인구이동 ③ 데이터클렌징(Data Cleansing): 2편 [출처] [파이썬 데이터 분석] 국가통계포털(KOSIS) 시도별 인구이동 ③ 데이터클렌징(Data Cleansing): 2편 지난 포스팅(링크 참조)에서 사용한 데이터를 계속 사용하겠습니다. 국가통계포털(http://kosis.kr/index/index.do)에서 다운로드한 "전출/전입지(시 도) 별 이동자수" 데이터 중에서 "서울특별시"를 전입지로 갖는 데이터만 추출하여 df_seoul 변수에 저장한 자료입니다. 데이터는 아래와 같은 형태입니다. 파이썬 Pandas 데이터 클렌징 (Data Cleansing)Pandas 데이터프레임에 들어 있는 데이터의 분포를 살펴 보는 메소드 함수는 describe( )입니다. 평균값, 중간값 등의 데이터 분포를 나타내는 통계값을 보여줍니다. # 데이터 값의 전반적인 분포를 살펴 본다 df_seoul.describe() 파이썬 Pandas 데이터 클렌징 (Data Cleansing)연도별(..
국가통계포털(KOSIS) 시도별 인구이동 분석 ② 데이터 클렌징 (Data Cleansing) [출처] [파이썬 데이터 분석] 국가통계포털(KOSIS) 시도별 인구이동 분석 ② 데이터 클렌징 (Data Cleansing) 지난 포스팅에서 사용한 데이터를 그대로 사용하겠습니다. 국가통계포털(http://kosis.kr/index/index.do)에서 다운로드한 "전출/전입지(시 도) 별 이동자수" 데이터 중에서 "서울특별시"를 전입지로 갖는 데이터만 추출하여 df_seoul 변수에 저장한 자료입니다. 데이터는 아래와 같은 형태입니다. (상세 내용 지난 포스팅 참조: 링크) 파이썬 Pandas 데이터 클렌징 (Data Cleansing)위에 정리된 데이터 중에서 "전출지별" 열(column)에 "전국", "서울특별시"가 있는 두 행(row)은 제거하겠습니다. "서울특별시"의 경우는 서울에서 서울로 이동하는 지역 내 이동에 해당하기 때문에 제거하고, "전국"은 각 시도 데이터의 합계이므로 "서울특별시"를 제거하면 합계 값에 오..
국가통계포털(KOSIS) 시도별 인구이동 분석 ① 자료 검색 및 저장 (pandas) [출처] [파이썬 데이터 분석] 국가통계포털(KOSIS) 시도별 인구이동 분석 ① 자료 검색 및 저장 (pandas) 통계청이 제공하는 국가통계포털(KOSIS)을 활용하는 방법을 소개합니다. 파이썬 Pandas 라이브러리를 주로 이용하여 데이터를 수집, 저장하고 분석하는 과정을 간단한 예제와 함께 풀어보려고 합니다. 오늘은 국가통계포털(KOSIS)에서 자료를 찾고, 필요한 검색조건을 적용하여 CSV파일로 저장하는 방법과 pandas dataframe으로 변환하는 방법을 알아보겠습니다. 국가통계포털(http://kosis.kr/index/index.do)에 홈페이지에 접속하여 필요한 통계정보를 검색하거나 통계분류표를 통해서 찾을 수 있습니다. 오늘은 "전출지/전입지(시도)별 이동자수" 자료를 찾아서 저장해보겠습니다. 시도별 인구 이동자 수를 검색하는 조건을 지정하여 조회하거나 다운로드할 수 있는데요. 시도별 전출자 수와 ..
상장사 재무제표 수집 -pandas.read_html 코딩을 제대로 배우지 않았거나 문과 출신의 일반 직장인들이 쉽게 배울 수 있는 파이썬(Python) 데이터분석툴 활용법 교육을 내용으로 블로깅을 시작해보려고 했는데요. 저 또한 코딩 초보인지라 좌충우돌하면서 직접 코딩을 공부하고 실전 예제를 다뤄보느라 블로그를 체계적으로 만들 정신이 없었던 것 같아요. 다시 한번 심기일전해서, 직장인에게 필요한 코딩 예제 위주로 주제를 잡아서 집중해서 블로그 컨텐츠를 만들어 보려고 합니다. 오늘은 일반 기획 담당자들이라면 자주 하는 일인데요. 상장사 재무제표 데이터를 수집하는 작업을 파이썬을 활용해서 자동화하는 코딩 예제를 소개합니다. 초보의, 초보에 의한, 초보를 위한 파이썬 코딩! 복잡한 코딩은 피하겠습니다. 간단하게 따라하면서 바로 업무에 적용할 수 있는 알고리즘을..
네이버 주식 시세 - 웹 스크래핑(web scraping) 네이버 등 포털 사이트에서 제공하는 주식시세(주가정보) 데이터를 가져와서, 그래프로 간략하게 그려보는 예제를 만들어 봅니다. 처음에는 코드 한줄 한줄 전부 이해하는 것보다는 예제 코드를 최대한 타이핑해보면서 실행 결과를 확인해 보면서 흥미를 갖는 것이 중요합니다. 지난 포스팅에서 설명드린 pandas.read_html 함수를 사용해서 네이버 주식 시세 테이블을 dataframe으로 가져옵니다. 아래 그림처럼 주식시세가 웹페이지 여러 페이지에 걸쳐 있기 때문에, 페이지를 한장씩 넘어가면서 pandas.read_html 함수를 사용하여 표를 여러 번 나누어서 읽어야 합니다. 우선, 필요한 패키지(pandas, datetime)를 불러온다. 네임스페이스를 사용하여 pd, dt 등 약칭으로 부른다 import ..