Step 2: 데이터 수집을 위한 코드를 작성한다.
코드는 5줄로 만들었습니다. 상당히 간단하죠?^^ pandas 라이브러리와 dataframe을 설명하고 이해하려면 상당히 많은 시간이 필요하지만, 직장인들이 업무에 적용할 때는 엑셀의 내장함수를 사용하 듯 그냥 따라하는 것도 괜찮다고 생각합니다. 일단 업무에 적용하고, 세세한 작동원리와 이론에 대해서는 차근차근 보충해 나가는 방법을 권장합니다. 이런 게 실사구시의 정신 아닐까요? ^^
import pandas as pd
url = "http://media.kisline.com/highlight/mainHighlight.nice?nav=1&paper_stock=005930"
tables = pd.read_html(url)
df = tables[4]
df.to_excel("data_005930.xlsx")
Step 3: 데이터를 원하는 형태로 정리한다.
저장된 엑셀 파일을 열어서 확인해 보면, 불필요한 셀들이 있는데요. 이런 부분을 제거해서 필요한 부분만 남기는 것을 데이터 클린징이라고 부릅니다. 이 부분도 자동화할 수 있지만, 난이도가 꽤 있는 작업이라서 오늘은 다루지 않겠습니다.