Skip to content

Seondong/LocEmb

Repository files navigation

LocEmb: Location Embedding

  • Location Embedding (Currently covering districts, roads, and businesses in Korea) [PDF]

프로젝트 목표

  • 대한민국의 지역 및 장소별 embedding을 제공하고자 함

임베딩 결과물 소개

모든 임베딩 결과는 100차원의 vector 형식임
예시) 서울특별시 강남구: [0.0718, -0.0919, ..., -0.103, -0.066]
         서울특별시 강남구 테헤란로: [0.011, 0.000, ..., -0.015, -0.017]
         씨제이 올리브영 종각점: [-0.0363, 0.0177, ..., 0.000, 0.027]

임베딩 결과 분석 예제

  • LocEmb-EDA.ipynb: 임베딩 결과값 체크 및 지역별 유사도 계산 예제

  • 유사도 분석 결과:

    • 예시 1) 대전광역시 유성구 신성동과 가장 유사도가 높은 전국의 행정동

      행정동명 유사도
      대전광역시 유성구 관평동 97.81%
      대전광역시 유성구 전민동 97.33%
      대전광역시 유성구 구즉동 96.08%
      대전광역시 유성구 온천2동 94.95%
      대전광역시 서구 만년동 93.46%
    • 예시 2) 대전광역시 유성구 어은동에 위치한 '플라스틱플랜트'와 가장 유사도가 높은 전국의 상호

      상호명 유사도
      두메숯불바베큐 99.54%
      요시다 99.52%
      올리브가든수제파이전문점 99.44%
      짜카밥 99.39%
      기시맹 99.38%
  • 교차 분석 결과: 상권 업종 임베딩 결과와 도로명 임베딩 결과를 활용하여, 특정 업종과의 유사도가 높은 도로를 리스트업한 후 실제로 해당 업종 상호가 많은 지 검색을 통해 검증함

    • 예시 1) 상권업종대분류명 '숙박'의 임베딩 결과와 가장 유사도가 높은 지역별 도로

      도로명 유사도
      경기도 가평군 북면 백둔로133번길 95.01%
      충청남도 태안군 남면 진산1길 94.00%
      경상남도 남해군 남면 빛담촌길 92.33%
      충청남도 보령시 해수욕장12길 90.55%
      충청남도 태안군 안면읍 사냥메기길 90.49%
      강원도 강릉시 해안로621번길 90.25%
      전라남도 여수시 남면 우두로 89.26%
      강원도 홍천군 서면 도롱골길147번길 87.64%
      경상북도 경주시 서낭길 85.95%
      • 가장 유사도가 높은 '경기도 가평군 북면 백둔로133번길' 과 주변의 숙박 업소 [카카오맵]
    • 예시 2) 상권업종중분류명 '유흥주점'의 임베딩 결과와 가장 유사도가 높은 지역별 도로

      도로명 유사도
      강원도 원주시 토지길 73.37%
      서울특별시 서대문구 연세로7안길 73.34%
      전라남도 여수시 시청동5길 70.39%
      대구광역시 수성구 수성못6길 70.34%
      서울특별시 용산구 이태원로27가길 69.72%
      전라북도 전주시 완산구 홍산중앙로 69.69%
      충청북도 충주시 연수상가길 66.32%
      대전광역시 유성구 온천북로13번길 64.91%
      전라남도 목포시 원형로 64.58%
      서울특별시 마포구 홍익로5길 64.08%
      • 두 번째로 유사도가 높은 '서울특별시 서대문구 연세로7안길' 과 주변의 유흥주점 [카카오맵]

임베딩 알고리즘

Concept map을 활용하여 heterogeneous hierarchical structures을 통합, hyperbolic space에 함께 임베딩한 방법론으로 구역 정보와 함께 위도 및 경도, 상권 분류명 정보를 활용하여 각 구역, 도로, 상권별 임베딩을 학습함

  • Algorithm Description [PDF]
  • 관련 연구 설명 및 유사 데이터를 활용한 분석 결과 [슬라이드]

임베딩에 활용한 데이터

임베딩 결과를 활용 가능한 프로젝트

  • 장소 추천 / 예측 모델: 고객 동선을 모델링할 때 pretrained된 embedding값을 활용
  • 지가 및 분양가 예측 모델: 지역별 embedding값을 covariate으로 활용
  • 지역별 전염병 확산 / 예측 모델: 감염자의 동선을 활용한 모델 개발시 pretrained된 지역별 embedding값을 covariate으로 활용

관련 정보

To-do

  • 건물 고유 번호 등으로 추가 확장
  • 위, 경도를 활용하는 다른 방법 고안
  • GPU computing
  • 임베딩을 활용 가능한 예측/분석 테스크 예제 추가
  • 페이퍼 작성 및 코드 공개

License

Creative Commons Attribution-ShareAlike license (CC BY-SA 4.0)

Citation

If you mention LocEmb for your publication, please cite the paper:

@inproceedings{kim2021locemb,
  title={Embedding Heterogeneous Hierarchical Structures},
  author={Kim, Sundong},
  booktitle = {7th International Conference on Computational Social Science},
  year={2021}
}

Contact information

This is an early-stage project.

For help or issues using LocEmb, please submit a GitHub issue. For communication and collaboration related to LocEmb, please contact Sundong Kim (sundong@ibs.re.kr).

About

LocEmb: Location Embedding (Currently covering districts, roads, and businesses in Korea)

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published