O sequenciamento do DNA, material que compõe os genes, corresponde a uma série de processos químicos que têm como finalidade determinar a ordem em que os nucleotídeos (adenina, guanina, citosina e timina). Esses são bases do DNA e estão dispostos dentro da sequência do genoma, que é formado pelo conjunto de cromossomos. A molécula do DNA é formada por dois filamentos de nucleotídeos que se enrolam um sobre o outro para formar uma dupla hélice (semelhante à espiral utilizada para criar cadernos). Os dois filamentos são ligados por “pontes” de hidrogênio.
Até 2007, o processo de sequenciamento do genoma humano empregava uma tecnologia de alto custo (cerca de 10 milhões de dólares por genoma). A partir daquele ano, com o uso de novos equipamentos, a eficiência aumentou e o preço diminuiu, passando a custar 10 mil dólares. Mas, as novas tecnologias ainda não solucionaram o problema por completo, sendo apenas capazes de gerar fragmentos muito curtos de DNA.
O genoma humano, por exemplo, possui uma sequência de 3 bilhões de bases e os novos modelos conseguem ler, no máximo, 2.500 pares delas. Isso é muito pouco para reconstruir a sequência original, sem a qual é impossível fazer um estudo detalhado. Atualmente, a reconstrução é feita por meio da montagem, uma técnica computacional que se baseia em sobreposições de diferentes pequenos fragmentos. Assim, é produzido, geralmente, um grafo – estrutura de dados em computação – e as sobreposições identificadas são unidas, mesmo com a presença de erros de sequenciamento ou mutações. Porém, em organismos complexos, como o do ser humano, a existência de sequências repetitivas torna o processo de reconstrução das sequências uma tarefa complexa.
A pesquisa
O trabalho do prof. Reinaldo Kurushu contribui para garantir maior precisão nos resultados com redução de tempo e custo
O método de sequenciamento propõe a combinação de duas técnicas computacionais: a coloração em grafos e o empacotamento
Considerando que nos seres humanos existem cerca de 20.000 genes, e que cada um deles pode ter vários tipos de isoformas, seria bastante custoso sequenciar todos os possíveis transcritos de um organismo complexo. Essa variedade ocorre devido à existência de splicing alternativo, que é um processo de clivagem no qual o mesmo gene pode assumir diversas formas. O método torna a montagem do transcriptoma (conjunto de todos os transcritos) difícil quando todos os transcritos são sequenciados simultaneamente.
Uma forma de resolver esse problema é isolar transcritos em clones individuais e sequenciar múltiplos usando o mesmo experimento. Um procedimento de Biologia Molecular muito utilizado em pesquisas experimentais é a clonagem, que permite isolar uma sequência específica, posteriormente analisada pelo cientista. O maior problema, nesse caso, é selecionar os que não possuem sobreposição de sequência, fato que devemos evitar para facilitar o processo de montagem dos fragmentos.
Reginaldo Kurushu, professor adjunto do Instituto de Ciência e Tecnologia (ICT) da Unifesp – Campus São José dos Campos, pesquisou e propôs uma solução computacional para o problema, o que resultou no artigo intitulado “Nonoverlapping Clone Pooling for High-Throughput Sequencing”, publicado em um periódico (IEEE/ACM Transactions on Computational Biology and Bioinformatics) no ano passado. No texto, o pesquisador propõe uma solução para a dificuldade para destacar os clones não sobrepostos.
Com o objetivo de otimizar a seleção dos clones de cada conjunto de sequências, foi proposta a combinação de duas técnicas computacionais: a coloração em grafos e o empacotamento. A primeira surge para solucionar o problema com a dificuldade para colorir um mapa utilizando um número mínimo de cores de forma a não ter dois países vizinhos com a mesma cor, tendo portanto, restrições quanto à proximidade. “Então o problema de coloração em grafos é tentar encontrar uma distribuição ótima usando um número mínimo de cores que satisfaça as restrições”, comenta o pesquisador.
Reginaldo também explica na definição do problema que um grafo pode ser entendido como um grupo de vértices e arestas, sendo os primeiros os clones, enquanto as outras são as conexões que indicam um conflito. Em outras palavras, quando há sobreposição entre dois clones, os seus vértices são ligados por uma aresta. O desafio consiste em achar a coloração mínima para evitar essas sobreposições, representadas pelas arestas no grafo.
“Em posse da solução ótima gerada pelo algoritmo de coloração em grafo, é necessário dividir os clones que foram separados por cores em diferentes pacotes, consistindo no empacotamento”, explica o professor. Essa etapa tem como objetivo satisfazer a restrição da capacidade limitada de sequenciamento em um único experimento. Ao final, são gerados conjuntos de clones (“pacotes”) que satisfazem as restrições de sobreposição e capacidade de encadeamento para serem sequenciados em larga escala.
Para o experimento, foram empregados dois conjuntos de dados, o primeiro sendo de mais de 50 mil clones de cDNA (sequência reverso-complementar de genes, DNA complementar), divididos em 143 diferentes pacotes que foram ordenados de forma paralela em uma máquina de sequenciamento. E um segundo grupo que utilizou cerca de 1.500 clones de fosmids (um tipo de clone que aceita sequência com comprimentos de cerca de 40 mil pares de base), obtidos para estudo de mudanças estruturais, dentro do contexto dos estudos de variações genéticas no genoma humano.
É possível identificar uma diferença na estrutura da sequência de um indivíduo em relação ao outro. Apenas por meio da comparação entre as extremidades de um clone de fosmid em relação a uma referência, por exemplo. Portanto, se o clone possuir uma grande deleção em relação à referência, uma remoção de sequências em relação ao usado como padrão, o mapeamento das duas extremidades irá assinalar isso, pois elas terão uma distância muito maior do que 40 mil pares de base, o tamanho da sequência presente no clone.
O problema de seleção de clones não sobrepostos foi definido como um grafo de intervalos. Esses períodos são definidos pelo mapeamento de sequências das extremidades de clones alvos em uma sequência de um genoma de referência. Demonstrou-se ser possível obter conjuntos otimizados de milhares de clones ideais para sequenciamento de segunda geração em poucos segundos. O trabalho desenvolvido contribui para experimentos mais eficazes e eficientes, garantindo maior precisão dos resultados, reduzindo o tempo e o custo.
Durante a pesquisa, foram utilizados algoritmos aproximados para o problema de empacotamento, que fornecem soluções próximas à ótima, pois não existem soluções ótimas e eficientes para esse problema. “Porém, nesse caso em específico, o que foi encontrado é uma solução suficiente; já ajuda bastante na resolução do problema computacional”, conclui Reginaldo.
Artigos relacionados:
Kuroshu, R.M. Nonoverlapping clone pooling for high-throughput sequencing. IEEE/ACM Transactions on Computational Biology and Bioinformatics. [online] vol. 10, n.5, p.1091-1097, set.-out. 2013. Disponível em: < http://www.ncbi.nlm.nih.gov/pubmed/24384700 >. Acesso em: 08 set. 2014.
Kuroshu, R.M. et al. Cost-effective sequencing of full-length cDNA clones powered by a de novo-reference hybrid assembly. Plos One. [online] vol. 5, 2010. Disponível em: < http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0010517 >. Acesso em: 08 set. 2014.