tandem-genotypes-join

#! /usr/bin/env python
# Copyright 2018 Martin C. Frith

from __future__ import division, print_function

import gzip
import itertools
import operator
import optparse
import os
import signal
import sys

def myOpen(fileName):
    if fileName == "-":
        return sys.stdin
    if fileName.endswith(".gz"):
        return gzip.open(fileName, "rt")  # xxx dubious for Python2
    return open(fileName)

def genePartScoresFromLines(lines):
    for line in lines:
        fields = line.split()
        if fields:
            yield fields[0], float(fields[1])

def complement(x):
    return "TGCA"["ACGT".index(x)]

def reverseComplement(seq):
    return "".join(map(complement, reversed(seq)))

def isRepeatedCodons(seq, codons):
    r = range(0, len(seq), 3)
    return all(seq[i:i+3] in codons for i in r)

def isRepeatedCodonsInAnyFrame3(seq, codons):
    return any(isRepeatedCodons(seq[i:] + seq[:i], codons) for i in range(3))

def isRepeatedCodonsInAnyFrame6(seq, codons):
    if isRepeatedCodonsInAnyFrame3(seq, codons):
        return True
    codons = [reverseComplement(i) for i in codons]
    return isRepeatedCodonsInAnyFrame3(seq, codons)

def isBadCodons(seq):
    glnCodons = "CAA", "CAG"
    alaCodons = "GCA", "GCC", "GCG", "GCT"
    badCodonSets = glnCodons, alaCodons
    return any(isRepeatedCodonsInAnyFrame6(seq, i) for i in badCodonSets)

def allDatasetFields(numOfDatasets, hasAllAlleles, group):
    numOfFields = 4 if hasAllAlleles else 2
    fieldsEnd = len(group[0]) - 1
    fieldsRange = range(fieldsEnd - numOfFields, fieldsEnd)
    i = 0
    for j in range(numOfDatasets):
        if i < len(group) and group[i][0] == j:
            for k in fieldsRange:
                yield group[i][k]
            i += 1
            if i < len(group) and group[i][0] == j:
                raise RuntimeError("duplicate repeat in dataset " + str(j))
        else:
            for k in fieldsRange:
                yield "."

def coverageFromText(text):
    return 0 if text == "." else text.count(",") + 1

def numOfOutliersToIgnore(dataset):
    total = count = 0
    for i in dataset:
        coverage = coverageFromText(i[-2]) + coverageFromText(i[-1])
        total += coverage
        count += (coverage > 0)
    return 1 if total >= 3 * count else 0

def copyNumberChangesFromText(record, fieldNum):
    text = record[fieldNum]
    if text != ".":
        for i in text.split(","):
            if ":" in i:
                i = i[:i.index(":")]
            yield int(i), fieldNum

def representativeCopyNumberChange(record, numOfOutliers):
    c = sorted(itertools.chain(copyNumberChangesFromText(record, -2),
                               copyNumberChangesFromText(record, -1)))
    for i in range(numOfOutliers):
        if c and c[-1][0] > 0:
            c.pop()  # discard the most extreme expansion
        if c and c[0][0] < 0:
            c.pop(0)  # discard the most extreme contraction
    if c:
        return c[-1] if c[-1][0] >= -c[0][0] else c[0]
    return None, None

def average(x):
    y = list(x)
    return 1.0 * sum(y) / max(len(y), 1)

def cbrt(x):  # xxx a tiny bit inaccurate
    if x >= 0:
        return x ** (1.0 / 3)
    return -((-x) ** (1.0 / 3))

def cubicMean(x):
    y = [i for i in x if i is not None]
    if len(y) == 1:  # avoid tiny but confusing inaccuracy of cbrt
        return 1.0 * y[0]
    return cbrt(average(i ** 3 for i in y))

def ordinaryMean(x):
    return average(i for i in x if i is not None)

def scoredJoinedLines(opts, args):
    repeatLengthBoost = 30  # xxx ???
    partScores = {"coding": 50, "5'UTR": 20, "3'UTR": 20, "exon": 15,
                  "promoter": 15, "intron": 5}
    if opts.scores:
        partScores.update(genePartScoresFromLines(myOpen(opts.scores)))

    hasAllAlleles = True
    records = []
    datasetCount = 0
    numOfPositiveDatasets = -1
    for arg in args:
        if arg == ":":
            numOfPositiveDatasets = datasetCount
            continue
        datasetsPerChunk = 0
        hasAlleles = False
        for line in myOpen(arg):
            fields = line.split()
            if line[0] == "#":
                datasetCount += datasetsPerChunk
                datasetsPerChunk = 0
                hasAlleles = len(fields) > 1 and fields[1][-1] == "2"
            elif fields:
                if not hasAlleles: hasAllAlleles = False
                fieldsPerDataset = 4 if hasAlleles else 2
                dpc, mod = divmod(len(fields) - 6, fieldsPerDataset)
                if dpc < 0 or mod > 0 or datasetsPerChunk not in (0, dpc):
                    raise RuntimeError("bad data in file: " + arg)
                datasetsPerChunk = dpc
                for i in range(dpc):
                    j = 6 + i * fieldsPerDataset
                    k = j + fieldsPerDataset
                    r = [datasetCount + i] + fields[:6] + fields[j:k]
                    records.append(r)
        datasetCount += datasetsPerChunk
    if numOfPositiveDatasets == -1:
        numOfPositiveDatasets = datasetCount

    records.sort()
    outliers = [numOfOutliersToIgnore(v)
                for k, v in itertools.groupby(records, operator.itemgetter(0))]

    for r in records:
        rep, fieldNum = representativeCopyNumberChange(r, outliers[r[0]])
        if opts.shrink:
            r[-2] = r[-1] = "."
            if rep is not None:
                r[fieldNum] = str(rep)
        if opts.change != 0 and rep is not None:
            if len(r) < 11:
                raise RuntimeError("input lacks alleles")
            alleles = r[7:9]
            if "." in alleles:
                if opts.change == 2:
                    rep = None
            else:
                func = max if opts.change == 1 else min
                chosenAllele = func(map(int, alleles), key=abs)
                rep = min(rep, chosenAllele, key=abs)
        r.append(rep)

    prog = "tandem-genotypes-join" + "2" * hasAllAlleles
    print("#", prog, *sys.argv[1:])

    records.sort(key=operator.itemgetter(1, 2, 3, 4))  # stable
    for k, v in itertools.groupby(records, operator.itemgetter(1, 2, 3, 4)):
        chrom, beg, end, unit = k
        group = list(v)
        if opts.shrink and all(i[-1] is None for i in group):
            continue
        geneName = genePart = "."
        if opts.shrink < 2:
            geneName, genePart = group[0][5:7]
        dataFields = list(allDatasetFields(datasetCount, hasAllAlleles, group))
        posMean = cubicMean if opts.mean == 3 else ordinaryMean
        pos = posMean(i[-1] for i in group if i[0] < numOfPositiveDatasets)
        neg = cubicMean(i[-1] for i in group if i[0] >= numOfPositiveDatasets)
        if pos >= 0:
            diff = max(pos - max(neg, 0), 0)
        else:
            diff = max(-pos - max(-neg, 0), 0)
        geneScore = partScores.get(genePart, 1)
        if genePart == "coding" and isBadCodons(unit):
            geneScore *= 2
        mul = geneScore * len(unit)
        jointScore = mul * diff / (int(end) - int(beg) + repeatLengthBoost)
        fields = [chrom, beg, end, unit, geneName, genePart] + dataFields
        yield -jointScore, fields, (geneScore, pos, neg)

def tandemGenotypesJoin(opts, args):
    for jointScore, fields, info in sorted(scoredJoinedLines(opts, args)):
        if opts.verbose:
            t = "{0:.3g}\t{1}\t{2:.9g}\t{3:.9g}".format(-jointScore, *info)
            print(t, *fields, sep="\t")
        else:
            print(*fields, sep="\t")

if __name__ == "__main__":
    signal.signal(signal.SIGPIPE, signal.SIG_DFL)  # avoid silly error message
    usage = "%prog positive-file(s) [: negative-file(s)]"
    description = "Join and re-rank outputs of tandem-genotypes."
    op = optparse.OptionParser(usage=usage, description=description)
    op.add_option("-c", "--change", type="int", default=0, metavar="N", help=
                  "get importance from: most-changed non-outlier read (0), "
                  "most-changed allele (1), least-changed allele (2) "
                  "(default=%default)")
    op.add_option("-s", "--shrink", action="count", default=0,
                  help="shrink the output")
    op.add_option("-m", "--mean", type="int", default=1, metavar="NUM",
                  help="type of mean for positive/patient/case files: "
                  "1=ordinary, 3=cubic (default=%default)")
    op.add_option("--scores", metavar="FILE",
                  help="importance scores for gene parts")
    op.add_option("-v", "--verbose", action="count", default=0,
                  help="show more details")
    opts, args = op.parse_args()
    if args:
        try:
            tandemGenotypesJoin(opts, args)
        except RuntimeError as e:
            prog = os.path.basename(sys.argv[0])
            sys.exit(prog + ": error: " + str(e))
    else:
        op.print_help()