Genetic Algorithms with Prior Knowledge for DNA Motif Discovery | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Introduction | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GAPK is an alternative Genetic Algorithm based do novo motif discovery application. GAPK consists of three main components: 1) Data Pre-processing to filter out noisy data in terms of search space reduction; 2) A Novel GA framework that targets to discover candidate motif models; 3) Post-processing for optimizing the predicted motif models from 2). Experimental verified binding sites associated with certain transcription factors from public domains are employed as prior-knowledge, especially designed for filtering noisy data and initializing the population. A mismatch-based metric is proposed as fitness function to guide the evolutionary process in 2). New genetic operations work together to potentially increase the probability of clustering similar k-mers to form better candidate motif models. A three-steps motif model refinement process aims to minimize the number of false positive instances and at the same time to maximize the number of true binding sites in the candidate models. In the detailed comparative studies, GAPK demonstrates the robustness and outperforms some well-known tools such as MEME, AlignACE, as well as two other GA approaches GAME and GALF-P. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Contact | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
For technical assistance or bugs please email to: A/Professor Dianhui Wang |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Download | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
The program can be downloaded from the following link. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
The source codes of GAPK were implemented using C/C++ and developed using Red Hat. Although the codes has been compiled and tested successfully on both windows platform (gcc version 3.4.5 under Windows XP sp2) and linux platform (gcc version 4.1.2 under Red Hat Linux version 2.6.18-92.e15), the authors cannot guarantee that it would not come across any compatible problems on other platforms. We appreciate feedbacks regarding to any implementation issues. To run GAPK, 1) choose the right distribution and extract the zip file. 2) For windows users: simply run the executable file "GAPK_2010.exe" on the command prompt. For linux users: in the GAPK directory, run from the terminal by typing "GAPK_2010". |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Usages | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GAPK assumes that at least one true site appears in each of the input DNA sequence. The command line is: GAPK_2010 -i <seq_file> -freq <freq_file> optional arguments] |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Generating background/foreground Markov Chain Model | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
The perl script is from Mahony et al. (2006). It generates the markov chain model and the frequency of each Kmer in the input
sequences. The command line to use the perl script is, perl BackExtract.pl -seq fastafile -x len [-out outfilename] fastafile is the fasta file name that stores the background sequences. len is the markov order (default is 3). In GAPK, the 3rd order markov chain model is used. outfilename is the output file name, which is the compulsory file <freq_file> required by GAPK. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GAPK How to | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Step 1: The <seq_file> of fasta format that contains DNA sequences and <freq_file> which contains the background frequencies of oligonucleotides are the only two compulsory parameters for GAPK. GAPK will fail to run by given a file with wrong format or empty file. In the <seq_file>, the sequences are believed to be pure DNA sequences and co-regulated by the same protein. The co-regulation can be established through gene expression analysis or other in vivo method such as CHIP-Seq, CHIP-PET, etc. These methods have been widely use for genome wide motif discovery. The <freq_file> is generated by using the Markov Chain model . Step 2: If users aim to use the prior-knowledge option for filtering noise data, a text file that contains true binding sites need to be prepared. The binding sites are only composed of A,C,G and T. Consensus patterns that have IUPAC letters are not supported in this version. The format of prior-knowledge <pk_file> file is given in the Usages section. If the prior-knowledge is provided, the length of kmer is automatically set as the same length as the length of the true binding sites stored in prior-knowledge. Step 3: Specify any other parameters, such as width of the kmer as 10 (-k 10), number of sites per sequence as 3 (-ns 3), number of generations as 500 (-g 500), replacement probability as 0.3 (-r 0.3), and percentage of prior-knowledge is used for initializing the population as 0.4 (-pkper 0.4). (Note: If the top model is kept after 100 generation, the genetic algorithm search of GAPK is finished. ) For example, the command line to discover motifs from upstream DNA sequences for genes believed to be co-regulated by MEF2 is, GAPK_2010 -i MEF2.fa -freq MEF2.back -pk MEF2.sites -g 1000 -p 500 -r 0.7 -perpk 0.8 -pkper 0.7 -o MEF2.output Step 4: The output file MEF2.output contains the final output motifs returned by GAPK. The following is the output result.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Descriptions:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Materials and Results | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
References | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
1. Mahony, S.; Benos, P.
V.; Smith, T. J. & Golden, A. Self-organizing neural networks to support the discovery of DNA-binding motifs Neural Networks, 2006,
19, 950-962. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright (2009). Disclaimer: The codes and executable are provided as it is and users used at their own risk. |