Por que o Hadoop é uma combinação perfeita para o seqüenciamento de genoma

Contente

O Presente e o Futuro da Genômica
As necessidades da indústria de mapeamento de genoma
O que é esperado na solução?
Por que o Hadoop é a melhor solução para sequenciamento de genoma
Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida
O que mais o Hadoop pode fazer?
Oportunidades para o Hadoop
Besta: A Plataforma de Gerenciamento de Dados de Próxima Geração
Outro software genômico baseado no Hadoop
Conclusão

Fonte: A3701027 / Dreamstime.com

Leve embora:

O sequenciamento do genoma precisa de poderosas ferramentas de tecnologia para lidar com todos os seus dados, e o Hadoop está à altura da tarefa.

A genômica clínica é um assunto fascinante, onde as pessoas estão trabalhando em tecnologias de ponta para processar resultados rápidos e precisos. Existem muitos seqüenciadores de genoma disponíveis no mercado, e eles estão produzindo petabytes de dados de sequência, e o crescimento no seqüenciamento produzirá exabytes de dados em um futuro próximo. Aqui, o Hadoop é a plataforma perfeita para processar fluxos de trabalho genômicos complexos. O Hadoop pode armazenar e classificar grandes quantidades de informações e também pode renderizar análises significativas. (Para ter uma idéia da quantidade de dados realmente necessária, leia Noções básicas sobre bits, bytes e seus múltiplos.)

O Presente e o Futuro da Genômica

Hoje, o mapeamento do genoma atingiu seu pico de desenvolvimento. Muitas pessoas associadas à indústria da genômica estão cheias de curiosidade e, à medida que novas oportunidades se apresentam, melhor tecnologia é a necessidade da hora. O sequenciamento do genoma é uma tarefa muito repetitiva e que consome muitos recursos. Somente em 2013, foram produzidos cerca de 15 petabytes de dados, e apenas por 2.000 sequenciadores. Essa quantidade de cair o queixo incluía 300 KB de dados do genoma humano sequenciado. Nesse ritmo de produção de dados, pode-se estimar que, até 2018, serão produzidos cerca de um exabyte de dados. Isso ocorrerá devido ao crescimento de sequenciadores, que produzirão mais e mais dados por execução. Outro motivo é o advento de máquinas de sequenciamento de genoma extremamente poderosas e de baixo custo. Desde 2008, o preço dessas máquinas vem diminuindo constantemente. Isso ocorre devido às poderosas máquinas da próxima geração que invadiram o mercado.

As necessidades da indústria de mapeamento de genoma

Algoritmos complexos são usados para processar os dados que são coletados do genoma humano. Então, essas informações precisam ser armazenadas. Pode ser revisado no futuro para comparação com os dados originais. A tarefa de processar e armazenar 100 GB de dados não é muito difícil, especialmente quando você faz isso com as poderosas máquinas empregadas nos centros de seqüenciamento. Estudos mostram que essa quantidade de dados pode ser processada em apenas 1.000 horas de CPU, portanto é muito fácil. Nesse ritmo de avanço técnico, é evidente que a indústria do genoma em breve processará milhares de gigabytes em apenas alguns segundos.

No entanto, as técnicas de gerenciamento e armazenamento de dados não estão evoluindo tão rapidamente, devido a isso, uma grande perda de dados preciosos pode ser esperada. Isso é realmente indesejável, pois prejudicará seriamente os progressos realizados na genômica humana. Portanto, a necessidade de uma técnica eficiente de gerenciamento de dados, que possa ser facilmente atualizada, é muito alta. Isso pode ser eficaz, especialmente em um futuro próximo, onde o mapeamento do genoma passará de grandes laboratórios com computadores poderosos para pequenos hospitais e laboratórios.

O que é esperado na solução?

O ritmo em que novas técnicas de seqüenciamento genômico estão sendo descobertas e desenvolvidas é extremamente alto. Esse ritmo pode ser muito benéfico para a ciência médica na forma de um poderoso passo em direção à erradicação das principais doenças. No entanto, esse ritmo também pode ser muito desafiador.

O desafio vem na forma de gerenciar grandes quantidades de dados produzidos pelos projetos de seqüenciamento. Portanto, é necessária uma solução eficaz que ajude no armazenamento e processamento de big data. Essa solução deve ser barata e rápida, além de adaptável. A análise fornecida por esta solução também deve ser exata e constante. Então, qual é a solução para o problema? Sem dúvida, é o Hadoop. (Para obter mais informações sobre os usos do Hadoop, consulte 5 Insights sobre Big Data (Hadoop) como um serviço.)

Por que o Hadoop é a melhor solução para sequenciamento de genoma

O que o setor de genômica precisa é de uma solução superior que possa ajudá-los a gerenciar efetivamente os dados, processá-los e armazená-los para uso futuro. Esta solução parece ser uma combinação perfeita com o software Hadoop. Portanto, o Hadoop pode ser considerado como o software de gerenciamento de big data perfeito que pode melhorar bastante as técnicas atuais de armazenamento de dados da indústria de genômica.

Os recursos em tempo real do Hadoop possibilitam que os sequenciadores de genoma analisem e armazenem grandes quantidades de dados ao mesmo tempo em tempo real. Isso também permite o uso futuro dos dados. O Hadoop pode superar muitos sistemas legados, pois é muito mais rápido e confiável do que eles.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

O que mais o Hadoop pode fazer?

Devido ao Hadoop, um grande número de possibilidades e oportunidades foram abertas no campo da genômica e sequenciamento de genes. O Hadoop oferece opções de computação paralela devido às quais é possível um sequenciamento mais rápido. Além disso, usando a função MapReduce do Hadoop, um grande número de genes pode ser mapeado com muita facilidade. Por esse motivo, o sequenciamento com o Hadoop se tornará verdadeiramente "de última geração" e será muito menos complicado.

Oportunidades para o Hadoop

O Hadoop tem várias oportunidades na indústria do genoma, mas a melhor foi derivada do artigo de Lynda Chin, “Compreendendo os dados genômicos do câncer”, na revista Genes & Development. Neste artigo, ela discute como a genômica moderna abriu novas portas, e isso levou a muitos resultados positivos, como a descoberta de informações genômicas sobre o câncer. Devido a isso, estamos mais perto de descobrir a cura para o próprio câncer. No entanto, isso requer um pouco mais de atenção e um poderoso aplicativo de gerenciamento de dados para melhorar a capacidade de pesquisa em campo. Essa pode ser a melhor oportunidade para o Hadoop provar sua velocidade, potência e precisão.

Besta: A Plataforma de Gerenciamento de Dados de Próxima Geração

Crossbow, que é um pipeline de software destinado à análise de re-seqüenciamento de genoma, é uma das melhores soluções. Foi o resultado da integração no Hadoop entre um algoritmo rápido para alinhar os dados sequenciados, chamado Bowtie, e um poderoso algoritmo que compara e examina os dados sequenciados, ou seja, um genotipador chamado SoapSNP. Ele é construído no Apache Hadoop e é baseado na implementação da estrutura MapReduce. O Crossbow é portátil, escalável e também é adequado como uma ferramenta de computação em nuvem.

Com essa poderosa integração, um genoma completo pode ser examinado em apenas um dia em um cluster local com 10 nós. Com um cluster de 40 nós, o processo é ainda mais rápido e é concluído em apenas três horas, com um custo total inferior a US $ 100! Um estudo realizado para testar a precisão do Crossbow mostrou que ele pode comparar cada genoma com 99% de precisão. Outro recurso útil do Crossbow é que ele roda na nuvem. Assim, o Crossbow permitirá que milhares de futuros centros de sequenciamento, como hospitais, sequenciem grandes quantidades de dados do genoma sem a necessidade de computadores e tecnologia poderosos e dispendiosos.

Outro software genômico baseado no Hadoop

Muitas empresas reconheceram o poder do Hadoop em mudar o mundo da genômica. Eles modificaram adequadamente o Hadoop para aproveitar seu potencial de sequenciamento avançado de genoma. Alguns exemplos de famosas soluções de sequenciamento de genoma baseadas em Hadoop são fornecidas abaixo:

Hadoop-BAM: Esta é uma poderosa ferramenta de gerenciamento de dados que utiliza a função MapReduce do Hadoop para várias atividades relacionadas à genômica, como a genotipagem. Isso funciona no formato Alinhamento binário / Mapa.
Cloudburst: Esta solução baseada no Hadoop foi criada em 2009. É extremamente eficiente na comparação de seqüências genômicas e no mapeamento de genes individuais. Este também é um dos primeiros aplicativos baseados no Hadoop projetados para essa finalidade.

Conclusão

A integração entre big data e a indústria de genômica está se mostrando uma vantagem nos tempos modernos. Essas plataformas são eficazes na descoberta dos tratamentos de várias doenças como o câncer. Os dados que estão sendo encontrados pelo mapeamento do genoma podem ser usados para a formulação de informações preventivas de tais doenças. O advento do big data pode ser considerado um ponto de virada no mundo da genômica e, se as informações forem usadas com sabedoria, possivelmente também no campo mais amplo da saúde. A única maneira de avançar nesse campo é o uso de ferramentas adequadas de gerenciamento de dados como o Hadoop.