Skip to content

therk987/nlp

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

IPA 인공지능센터 "고급(언어지능) 과정 1기" 스터디 자료

한국IT비즈니스진흥협회 인공지능센터의 AI Expert 교육 과정 중 언어지능 분야 교육 내용을 정리한 자료 입니다.

목차

  1. 자연어처리 소개 및 분석과정 (자료)
  2. 비정형 데이터 - HTTP, Urllib, Requests (자료1) (자료2) (Code)
  3. 특강 - git Advanced (자료1) (자료2)
  4. Cookie / Session (자료) (Code는 2강 Code의 끝부분 참조)
  5. 웹 크롤링 - DOM (자료1) (자료2) (Code)
  6. 웹 크롤링 - Selector (자료1) (자료2) (Code)
  7. 웹 스크래핑 - 정적 콘텐츠 (자료1) (자료2) (Code)
  8. 웹 스크래핑 - 동적 콘텐츠 (자료1) (자료2) (Code)
  9. 프로젝트1 - 네이버 뉴스 기사 scraping (자료) (Code)
  10. 토큰화 - 문단, 문장, 어절, 정규식 (자료1) (자료2) (Code)
  11. 토큰화 - Ngram, WPM (자료1) (자료2) (Code)
  12. 불용어 - 구두점, Stopwords (자료1) (자료2) (Code)
  13. 형태소분석-POS_Taggers, 구문분석-구/연어/시각화 (자료1) (자료2) (Code)
  14. 형태소분석-구문분석-구/연어/시각화, 정보검색-색인 기법 (자료1) (자료2) (Code1) (Code2)
  15. 정보검색 - 색인 기법 (자료1) (자료2) (자료3) (Code)
  16. 특강 - 자연어 처리 및 의료인공지능 개발 (자료) (Code)
  17. 정보검색 - 색인 기법(계속) (자료1) ((자료2) (Code)
  18. 정보검색 - 가중치 기법, 벡터 공간 모델 (자료1) ((자료2) Code)
  19. 정보검색 - 유사도 판별, 순위화 (자료) (Code)
  20. 프로젝트 비정형 데이터를 이용한 검색엔진 (Code)
  21. 특강 - 딥러닝 활용사례 및 실습 (Tensorflow) (자료) (Code)
  22. 문서분류 - kNN (Code)
  23. 프로젝트 뉴스 자동 분류(카테고리 분류) (Code)
  24. 문서분류 - 나이브 베이즈 (Code)
  25. 프로젝트 스팸 자동 분류 (Code)
  26. 특강 - 딥러닝을 이용한 금융서비스 사례 / 음성인식 개요 및 사례 (Code)
  27. 성능평가 - 정확율, 재현율, F-Measure (Code)
  28. 프로젝트 - 스팸자동분류 성능평가 (Code)
  29. 군집화 - KMeans (Code)
  30. 군집화 - 어휘 클러스터, 시각화 (Code1) (Code2)
  31. 특강 - 영상인식 사례, 딥러닝 실습 (Code1) (Code2)
  32. 토픽분석 - LSA_SVD (자료2) (자료2) (Code)
  33. 토픽분석 - LDA (자료) (Code, 코드 없이 markdown/LaTex으로 만들어진 설명자료 만 포함하고 있음)
  34. 휴강
  35. 토픽분석 - SVD, LDA 실습 (자료) (Code1) (Code2)
  36. 특강 - 항공산업 미래기술 예측, 자연어처리 특허 가치 및 평가, 바이오 정보 검색 (Code)
  37. 감성분석 - 감성사전 (Code1) (Code2)
  38. 감성분석 - PMI(Pointwise Mutual Information), SO(Semantic Orientation) (자료1) (자료2) (Code)
  39. 단어 임베딩 (자료) (Code)
  40. 영화리뷰 분석 코드 리뷰, 최종평가 (Code1) (Code2)

functions

강의에서 사용한 명령을 함수로 구현해서 재사용할 수 있도록 정리했습니다. functions 폴더에 모듈 형태로 구현하고, jupyter notebook에서 기능을 테스트 했습니다.

  1. download.py : requests 패키지를 이용한 웹 페이지 다운로드 함수들
    • getDownload(url, params, headers, retries): requests.get() 호출 후 Response 객체를 return
    • postDownload(url, data, headers, retries): requests.post() 호출 후 Response 객체를 return
  2. search.py : 4대 포탈에서 키워드 검색 후 title과 url을 추출 하는데 도움되는 함수들
  3. crawling.py : crawling에 필요한 함수들(TBD)
    • getUrls(link, depth): link 페이지에 포함된 url과 depth를 dictionary 형태로 반환
  4. ppomppu.py : 뽐뿌게시판 scraping에 필요한 함수들
  5. naver.py : naver 뉴스 기사 scraping에 필요한 함수들
  6. nlp/ngram.py : N-gram 함수 구현 => ngramEojeol(), ngramUmjeol() 함수
  7. nlp/wpm.py : WPM 구현 => split_terms(), find_ngram(), merge_ngram() 함수
  8. info_retrieval.py : 정보검색 관련 함수
  9. test/download_module_test.ipynb : download.py에 정의한 함수 테스트
  10. test/portal_title_and_url_retrieve_test.ipynb : search.py에 정의한 함수 테스트
  11. test/ppomppu_Poomppu_class_test.ipynb : ppomppu.py에 정의한 Ppomppu class 테스트
  12. test/ppomppu_Freeboard_class_test.ipynb : ppomppu.py에 정의한 PpomppuFreeboard class 테스트
  13. test/naver_news_scraping_test.ipynb : naver.py에 정의한 NewsScraping class 테스트
  14. test/information_retrieval_test.ipynb : info_retrieval.py에 정의한 함수 테스트
  15. test/mail_sraping_test-naver_mail-gmail.ipynb : mail scraping 기능 테스트

About

IPA 인공지능센터 "고급(언어지능) 과정 1기" 스터디 자료

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 82.4%
  • HTML 17.5%
  • Python 0.1%