Skip to content

빅데이터 분석을 이용한 생물 데이터 분석

Notifications You must be signed in to change notification settings

boorooksus/Biocomputing2020

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 

Repository files navigation

Biocomputing2020

1_k-nearest_neighbor

프로그램 설명

  • 파이썬을 통해 구현한 k-nearest neighbor을 이용하여 ribosomal/non-ribosomal 단백질 data set를 classification을 한 뒤, 분류 결과의 Sensitivity, Specificity, Accuracy를 구한다.

사용 방법

프로그램을 실행시키기 전에, 프로그램에 입력할 positive training set, negative training set, test set 파일들을 준비한 뒤 같은 폴더 내에 위치시켜야 합니다. 참고로 6-fold cross validation에 사용한 입력 파일들을 그룹별로 분류하여 ‘input data’ 폴더에 넣어두었으니 활용하시길 바랍니다. 프로그램을 실행시킨 뒤 “input location of input file” 이라는 문구가 뜨면 positive training set, negative training set, test set 파일들이 저장된 주소를 입력하고 엔터키를 누릅니다. 그 다음 “input file name of positive training set” 문구가 뜨면 positive training set이 들어있는 파일 이름을 입력하고 엔터키를 누릅니다. 그 다음 “input file name of negative training set” 문구가 뜨면 negative training set이 들어있는 파일 이름을 입력하고 엔터키를 누릅니다. 그 다음 “input file name of test set” 문구가 뜨면 test set이 들어있는 파일 이름을 입력하고 엔터키를 누릅니다. 마지막으로 “Input k and p” 문구가 뜨면 k값과 p 값을 띄어쓰기로 구분하여 입력합니다. 입력 데이터를 commend line으로 직접 입력하지 않고 파일로 전달하는 이유는 데이터가 너무 커서 컴파일 프로그램에 따라 입력이 잘리는 경우가 있기 때문입니다. 프로그램이 완료되면 입력 데이터 파일이 저장된 위치에 “knn.out”이 생성되어 결과가 저장됩니다.

사용 예시

입력 예시3

결과 예시

image

input 데이터 설명

121개의 ribo 단백질, 2346개의 nonribo 단백질들을 79가지 실험 결과에 따라 나온 수치값들을 각각 기록한 것입니다. 행은 각 단백질 종류를 열을 실험 결과에 따른 수치를 나타냅니다. group1 ~ group5는 각각 ribo/nonribo 데이터 중 일부를 test 데이터로 분리시킨 것입니다. test 데이터를 이 프로그램을 통해 ribo 또는 nonribo 단백질로 classification할 수 있습니다.


2_K-Means_Clustering

프로그램 설명

  • 파이썬을 통해 구현한 K-means clustering을 통해 데이터를 클러스터링.

사용 방법

프로그램을 실행시킨 뒤 “input k (k is number of clusters” 문구가 뜨면 입력 데이터 파일이 저장된 주소를 입력하고 엔터키를 누릅니다. 그 다음 “input location of input file” 문구가 뜨면 입력 데이터 파일이 저장된 주소를 입력하고 엔터키를 누릅니다. 그 다음 “input name of input file” 문구가 뜨면 입력 데이터 파일의 이름을 입력하고 엔터키를 누릅니다. 그 다음 “input ‘s’ or ‘r’” 문구가 뜨면 ‘s’ 또는 ‘r’을 입력 후 엔터키를 누릅니다. ‘r’은 center 위치를 랜덤하게 지정하겠다는 의미이고 ‘s’는 center 위치를 사용자가 지정하겠다는 의미입니다. 만약 ‘r’을 입력하면 클러스터링을 시작합니다. 만약 ‘s’를 입력하면 “input file name of center data” 문구가 뜨는데 center로 사용할 데이터가 들어있는 파일 이름을 입력하면 클러스터링을 시작합니다.

사용 예시

  1. center 위치 랜덤으로 했을 때
    kmc1

  2. center 위치 지정할 때
    kmc2

결과 예시

kmc결과1
.
.
.
kmc결과2
.
.
.

About

빅데이터 분석을 이용한 생물 데이터 분석

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages