Newreka: 뉴스관련 실시간 핫토픽 키워드를 제공하는 온라인 플랫폼
Newreka는 평소 뉴스 읽기를 버거워하던 사람들을 위해 제공되는 서비스입니다. 사람들에게 뉴스 진입 장벽을 낮추고, 시간과 공간의 제약 없이 더 많은 기회를 제공합니다. 또한, 뉴스를 읽었음을 문제를 통해 검증하고, 얼마나 많은 뉴스를 읽었는지에 대한 객관적 지표를 제공함니다.
- 매시 정각부터 시작하여 10분마다 실행되는 작업
- 로직
- 네이버 뉴스 크롤링 데이터를 3시간 단위로 처리하며, 10분 간격으로 sliding
- 제목 데이터를 가공 후 Komoran을 이용해 형태소 분석
- 시간에 따라 서로 다른 가중치를 두어 빈도수 측정 후 상위 10개 키워드 선정
- 매시 1분부터 시작하여 10분마다 실행되는 작업
- 관련 뉴스 선정은 Elasticsearch에 검색한 결과를 이용
- Carrot2 플러그인의 Lingo 알고리즘에 의해 선택되는 유사도 높은 기사 5개를 선정
- Nori 형태 소 분석기를 커스텀하여 적용해 한글 검색 문제 해결
- Naver OpenAPI를 이용해 자동화
- 매시 2분부터 시작하여 10분마다 실행되는 작업
- OpenAI API를 이용해 자동화
- Kibana를 통해 실시간 데이터 시각화
이름 | 역할 | 주요 임무 |
---|---|---|
김정환 | BE, DevOps | 서버 구축, CI/CD 자동 배포, Nginx, 스크랩 기능 |
윤우혁 | BE, Data, Infra | 아키텍쳐 설계, Elasticsearch, Logstash, Kibana, 핫토픽 선정, 연관 뉴스 선정 |
천병찬 | BE, Data | ERD 설계, JPA, JWT, 계정 관리, 이메일 서비스, File Beat |
채경호 | BE, Data | JPA, 뉴스 크롤링, 요약 기능, 퀴즈 생성, 스크랩 기능 |
박종욱 | FE, BE, Data | UI/UX, 프론트엔드, 뉴스 크롤링, 핫토픽 선정, Kafka |
김선영 | FE, BE, Data | UI/UX, 프론트엔드, Logstash |