티스토리 뷰

SMALL

이제 파이썬의 IDLE인 주피터노트북 설치를 완료하였으니, 데이터를 불러오려고 한다.

 

데이터는 데이콘의 "소설 작가 분류 AI 경진대회"의 데이터를 활용할 것이다.

dacon.io/competitions/official/235670/data/

 

소설 작가 분류 AI 경진대회

출처 : DACON - Data Science Competition

dacon.io


  1. Anaconda3 (64-bit) 폴더에 Jupyter Notebook (anaconda3) 를 실행시킨다.  

  2. 실행하면 cmd 창에 URL이 제공되며, 해당 URL을 웹에 복사 붙여넣기한다. 

  3. Jupyter Notebook이 잘 실행되면 작업할 파일들을 저장할 폴더를 신규 생성한다. 

  4. 신규 생성한 폴더에 불러올 데이터를 옮겨 놓는다. 

  5. 데이터 불러오기 및 탐색을 위한 파이썬 파일(ipynb)를 신규 생성한다. 

  6. 신규 생성판 파이썬 파일(ipynb)의 이름을 변경한다.

  7. 데이터를 불러오기 위해 Pandas 라이브러리를 불러온다. 

  8. Pandas 라이브러리의 read_csv 함수를 활용하여 csv 파일을 불러온다.

    - csv 파일은 구분자를 따로 작성하지 않아도 잘 불러온다. 

  9. 데이터가 잘 불러왔는지 확인한다.

    - 데이콘의 "소설 작가 분류 AI 경진대회" 데이터는 traindata와 testdata 두가지로 구성되어 있으며, traindata는 

      작가의 글, 작가 구분으로 구성되어 있고 testdata는 작가의 글로 구성되어 있음을 확인할 수 있다.


 

- 빨리 분류 모델 생성하고 싶은 몰리몰랑 2020년 12월 1일 코딩 5줄 끝 -

 

반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함