SOP_alignment_variant_annotation.md

<pcr_plate_id>_<indiv_id>_<family_id><suffix>
<EdGE_project_id>/
  +---<dated_batch>/
  |   +---<sample_id>/
  |   |   +---*.fastq.count
  |   |   +---*.fastq.gz
  |   +---file_list.tsv
  |   +---md5sums.txt
  +---<dated_batch>_tree.txt
  +---Information.txt
  +---md5_check.txt
<ECRF_project_id>/
  +---<internal_id_-md5.txt
  +---<pcr_plate_id>_<indiv_id>_<family_id><suffix>_S<i>_L001_R1_001.fastq.gz
  +---<pcr_plate_id>_<indiv_id>_<family_id><suffix>_S<i>_L001_R2_001.fastq.gz
  +...
    config – bcbio configuration files in YAML format
    logs – PBS job submission log files
    params – parameters for PBS job submission
    reads – symlinks/merged versions of input FASTQ files
    work – bcbio working folder
<analysis_date>_<project_id>_<pcr_plate_id>_<family_id>/
  +---<indiv_id>_<family_id>/
  |   +---<indiv_id>_<family_id>-callable.bed
  |   +---<indiv_id>_<family_id>-ready.bam
  |   +---qc/
  +---<pcr_plate>_<family_id>-gatk-haplotype-annotated.vcf.gz
  +---bcbio-nextgen-commands.log
  +---bcbio-nextgen.log
  +---data_versions.csv
  +---metadata.csv
  +---multiqc/
  |   +---list_files_final.txt
  |   +---multiqc_config.yaml
  |   +---multiqc_data/
  |   +---multiqc_report.html
  |   +---report/
  +---programs.txt
  +---project-summary.yaml
project_id=<project_id>
short_project_id=`echo $project_id | cut -f 1 -d '_'`
version=<version>.
source /home/u035/u035/shared/scripts/trio_whole_exome_config.sh
cd $PARAMS_DIR
ped_file=<input_ped_file>
cp $ped_file $project_id.ped
cd $PARAMS_DIR
sample_suffix=<sample_suffix>
$SCRIPTS/prepare_bcbio_config.sh \
  $SCRIPTS/trio_whole_exome_config.sh \
  $project_id $version $sample_suffix &> ${project_id}_${version}_`date +%Y%m%d%H%M`.log
X=`wc -l $PARAMS_DIR/$project_id.family_ids.txt | awk '{print $1}'`
cd $PARAMS_DIR
sample_suffix=<sample_suffix>
$SCRIPTS/scripts/prepare_bcbio_config_crf.sh \
  $SCRIPTS/trio_whole_exome_crf_config.sh \
  $project_id $version $sample_suffix &> ${project_id}_${version}_`date +%Y%m%d%H%M`.log
X=`wc -l $PARAMS_DIR/$project_id.family_ids.txt | awk '{print $1}'`
cd $LOGS_DIR
sbatch --export=PROJECT_ID=$project_id,VERSION=$version,CONFIG_SH=$SCRIPTS/trio_whole_exome_config.sh \
  --array=1-$X --job-name=trio_whole_exome_bcbio.$short_project_id \
  $SCRIPTS/submit_bcbio_trio_wes.sh
cd $OUTPUT_DIR/${short_project_id}_${version}
mv *${short_project_id}* families/
cd $OUTPUT_DIR/${short_project_id}_${version}/families
mkdir -p ../qc
multiqc --title "Trio whole exome QC report: $short_project_id $version" \
  --outdir ../qc \
  --filename ${short_project_id}_${version}_qc_report.html .
cd $OUTPUT_DIR/${short_project_id}_${version}/families
batch_id=<batch_id>

perl $SCRIPTS/trio_whole_exome_parse_peddy_ped_csv.pl \
  --output ../qc/${short_project_id}_${version}.ped_check.txt \
  --project $project_id \
  --batch $batch_id \
  --version $version \
  --ped $PARAMS_DIR/$project_id.ped
grep -v False$ ../qc/${short_project_id}_${version}.ped_check.txt
cd $WORK_DIR
rm -r *
cd $LOGS_DIR
rm -r *
cd /home/u035/u035/shared/analysis/reads/${project_id}
rm `ls | grep -v -f retain_for_rerun.txt`