Mismatch between clinical_significance_ordered and submitters_ordered #54

giladmishne · 2018-03-21T15:58:09Z

Hi,

Thanks for releasing this great resources. I noticed some discrepancies between the semicolon-separated lists in clinical_significance_ordered and submitters_ordered:

In [1]: df = pd.read_csv('clinvar_alleles_example_750_rows.single.b37.tsv', sep='\t')

In [2]: df.shape
Out[2]: (749, 39)

In [3]: for col in 'rcv scv clinical_significance_ordered submitters_ordered'.split():
    ...:     df['len_' + col] = df[col].apply(lambda x: len(x.split(';')))

In [4]: diffs = df[df.len_clinical_significance_ordered != df.len_submitters_ordered].shape

In [5]: diffs.shape
Out[5]: (120, 43)

Ordered clinical significance doesn't seem to match the RCV or SCV lists either. Is this intended?

Thanks

The text was updated successfully, but these errors were encountered:

kristjaneerik · 2018-03-21T16:02:38Z

I believe my PR #51 fixes this, but it is still being reviewed..

giladmishne · 2018-03-21T16:36:51Z

Thanks @kristjaneerik !

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mismatch between clinical_significance_ordered and submitters_ordered #54

Mismatch between clinical_significance_ordered and submitters_ordered #54

giladmishne commented Mar 21, 2018

kristjaneerik commented Mar 21, 2018

giladmishne commented Mar 21, 2018

Mismatch between clinical_significance_ordered and submitters_ordered #54

Mismatch between clinical_significance_ordered and submitters_ordered #54

Comments

giladmishne commented Mar 21, 2018

kristjaneerik commented Mar 21, 2018

giladmishne commented Mar 21, 2018