Jupyter Notebook 활용하여 데이터 불러오기

티스토리 뷰

Python

혬몰리 2020. 12. 1. 15:30

SMALL

이제 파이썬의 IDLE인 주피터노트북 설치를 완료하였으니, 데이터를 불러오려고 한다.

데이터는 데이콘의 "소설 작가 분류 AI 경진대회"의 데이터를 활용할 것이다.

소설 작가 분류 AI 경진대회

출처 : DACON - Data Science Competition

dacon.io

1. Anaconda3 (64-bit) 폴더에 Jupyter Notebook (anaconda3) 를 실행시킨다.

2. 실행하면 cmd 창에 URL이 제공되며, 해당 URL을 웹에 복사 붙여넣기한다.

3. Jupyter Notebook이 잘 실행되면 작업할 파일들을 저장할 폴더를 신규 생성한다.

4. 신규 생성한 폴더에 불러올 데이터를 옮겨 놓는다.

5. 데이터 불러오기 및 탐색을 위한 파이썬 파일(ipynb)를 신규 생성한다.

6. 신규 생성판 파이썬 파일(ipynb)의 이름을 변경한다.

7. 데이터를 불러오기 위해 Pandas 라이브러리를 불러온다.

8. Pandas 라이브러리의 read_csv 함수를 활용하여 csv 파일을 불러온다.

- csv 파일은 구분자를 따로 작성하지 않아도 잘 불러온다.

9. 데이터가 잘 불러왔는지 확인한다.

- 데이콘의 "소설 작가 분류 AI 경진대회" 데이터는 traindata와 testdata 두가지로 구성되어 있으며, traindata는

작가의 글, 작가 구분으로 구성되어 있고 testdata는 작가의 글로 구성되어 있음을 확인할 수 있다.

- 빨리 분류 모델 생성하고 싶은 몰리몰랑 2020년 12월 1일 코딩 5줄 끝 -

Pandas dataframe 용량 줄이기 (0)	2023.12.19
[Error Handling] Cuda out of memory 해결 (1)	2021.03.18
영어 자연어 처리를 위한 Tokenization하기 (0)	2020.12.08

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함