Fold-it: um jogo online em prol da ciência

Lembram do meu último post sobre dois artigos que descrevem a criação bio-computacional de enzimas artificiais? Pois é, o David Baker, autor daqueles papers, lançou uma nova “moda”. Um jogo online chamado fold-it. O objetivo é competir para criar conformações, ou enovelamentos (ou ainda foldings), mais prováveis pra uma proteína. Quanto melhor for o enovelamento, mais pontos o jogador ganha.

A pergunta que voces devem estar fazendo agora é: o que um cientista renomado quer lançando um jogo online? É claro que não é só pela diversão ;-) .

David Baker há anos vem estudando maneiras de computar o enovelamento de proteínas. O motivo é que o enovelamento, ou conformação final de uma proteína, influencia criticamente em sua função.

E criar uma enzima nova requer descobrir exatamente o folding dessa enzima a partir de sua seqüência de aminoácidos. O problema é que essa não é uma tarefa fácil – calcular o enovelamento de um proteína requer efetuar até trilhões de cálculos.

A idéia do jogo começou com o Rosetta, um algoritmo que usa o método de Monte Carlo para predizer a melhor conformação de uma proteína. Já existe há anos um programa de rede distribuída chamado Rosetta@home, que usa computadores voluntários do mundo inteiro com o objetivo de rodar o Rosetta, enquanto ociosos - um screen saver é aberto e mostra como o programa tenta descobrir o enovelamento de diversas proteínas.

Mas os usuários verificavam que esse programa fazia coisas visivelmente idiotas - o que era meio de se esperar, por ser um algoritmo força bruta. A idéia do David Baker foi de, ao invés de usar uma marreta pra solucionar o problema, usar a capacidade de resolver problemas 3D do cérebro humano, usando um jogo.

E o pior é que funciona – houve situações em que o jogador conseguiu achar corretamente a conformação uma proteína, com forma já conhecida, mais rápido que o computador! ;-)

Mas a grande “jogada” do David Baker é fazer com que os jogadores criem conformações novas para proteínas ainda não conhecidas. Essas conformações poderão servir para a síntese de drogas e enzimas ainda não conhecidas, de maneira mais rápida… e divertida ;-)

A pergunta que voces devem estar fazendo agora é: o que um cientista renomado quer lançando um jogo online? É claro que não é só pela diversão ;-) .

David Baker há anos vem estudando maneiras de computar o enovelamento de proteínas. O motivo é que o enovelamento, ou conformação final de uma proteína, influencia criticamente em sua função.

E criar uma enzima nova requer descobrir exatamente o folding dessa enzima a partir de sua seqüência de aminoácidos. O problema é que essa não é uma tarefa fácil – calcular o enovelamento de um proteína requer efetuar até trilhões de cálculos.

A idéia do jogo começou com o Rosetta, um algoritmo que usa o método de Monte Carlo para predizer a melhor conformação de uma proteína. Já existe há anos um programa de rede distribuída chamado Rosetta@home, que usa computadores voluntários do mundo inteiro com o objetivo de rodar o Rosetta, enquanto ociosos - um screen saver é aberto e mostra como o programa tenta descobrir o enovelamento de diversas proteínas.

Mas os usuários verificavam que esse programa fazia coisas visivelmente idiotas - o que era meio de se esperar, por ser um algoritmo força bruta. A idéia do David Baker foi de, ao invés de usar uma marreta pra solucionar o problema, usar a capacidade de resolver problemas 3D do cérebro humano, usando um jogo.

E o pior é que funciona – houve situações em que o jogador conseguiu achar corretamente a conformação uma proteína, com forma já conhecida, mais rápido que o computador! ;-)

Mas a grande “jogada” do David Baker é fazer com que os jogadores criem conformações novas para proteínas ainda não conhecidas. Essas conformações poderão servir para a síntese de drogas e enzimas ainda não conhecidas, de maneira mais rápida… e divertida ;-)



--> Biotecnologia, Inovação, Usabilidade, Visualização Cientifica 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Bioquímica computacional – customizando enzimas

Enzimas são potentes catalizadores. Elas podem tornar a velocidade de uma reação química bilhões de vezes maior. Porém as enzimas foram designadas, ou melhor, moldadas durante a evolução, para catalizar apenas reações que ocorrem em seres vivos.

Dois papers publicados na revista Nature descrevem pela primeira vez um método from scratch para se criar enzimas que catalizam reações químicas não-naturais. O método envolve o uso de técnicas de modelagem computacional, bioquímica e biologia molecular - por exemplo, métodos quantum-mecânicos, o algoritmo de hashing RosettaMatch e evolução in vitro.

Os autores criaram efetivamente uma enzima que consegue catalizar uma reação não-natural, a reação de Kemp (onde um íon de hidrogênio é removido de uma ligação carbono-hidrogênio), até um milhão de vezes mais rápido que a reação não catalizada.

Agora resta criar um método para criar enzimas customizáveis em larga escala. As aplicações, para a indústria farmacêutica por exemplo, são ilimitadas.

Biotecnologia 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Criando Gênios em Laboratório

Muitos já ouviram falar de pessoas com transtornos cognitivos e de desenvolvimento (como autismo) que apresentam desempenho espetacular em algumas tarefas bem específicas (como decorar a lista telefônica, desenhos com alto grau de detalhe, ou cálculos matemáticos). O termo usado nessa condição é savant, e foi retratado em filmes como Rain Man, inspirado na vida de Kim Peek (que tem memória eidética - popularmente conhecida como “fotográfica”).

Em uma das listas relacionadas ao Singularity Institute for Artificial Intelligence (temos um contato próximo: desenvolvemos projetos de IA relacionados e sou um mentor do instituto no Google Summer of Code) está sendo discutido o trabalho de Allan Snyder, um pesquisador da Universidade de Sydney, Austrália, que estuda o uso de estimulação magnética transcraniana of lobo temporal esquerdo para induzir capacidades similares às dos savant em pessoas normais.

Estimulação Magnética Transcraniana

O método é discutido nesse artigo do New York Times, de 2003. Recentemente nos Estados Unidos o canal National Geographic apresentou um documentário chamado “Accidental Genius” sobre esse tema, com experimentos em universitários voluntários.

Nesses experimentos, o desempenho de voluntários em tarefas como ler uma frase com um pequeno erro gramatical, desenhar um cavalo e estimar quantos pontos foram mostrados brevemente numa tela é primeiro avaliado. Depois disso, os voluntários são submetidos a 15 minutos de estimulação magnética transcraniana em pontos específicos do cérebro, e repetem os experimentos.

Os resultados são extremamente curiosos. O nível de detalhe dos desenhos aumenta perceptivelmente; a precisão na estimativa da contagem de pontos dobra. A capacidade de leitura, entretanto, é afetada: a frase com um pequeno erro que era lida normalmente antes do experimento agora causa dificuldade no voluntário.

O documentário pode ser assistido (em inglês) no site do National Geographic (vá no dia 7 de Maio, às 4:00 PM).

Fãs de ficção científica vão com certeza se lembrar do excelente A Deepness in the Sky, de Vernor Vinge, e dos mentats do clássico Duna, de Frank Herbert. Em ambos, pessoas comuns são treinadas e modificadas para se tornarem especialistas em uma determinada área, alcançando desempenho superior até mesmo dos computadores da ficção. Em Duna, esse desempenho é possibilitado por uma droga, sapho; no livro de Vinge, usa-se a mesma estimulação magnética transcraniana estudada por Allan Snyder.

Estarão um upgrades cognitivos disponíveis, talvez para a população em geral, talvez para casos específicos (analistas militares, financeiros, profissionais de determinadas áreas) ? Quais seriam os impactos éticos desse tipo de processo ? Serão tais medidas (bem como o uso de medicamentos supostamente capazes de aumentar o desempenho intelectual, os chamados nootrópiocos) tratadas como o doping com esteróides anabolizantes é hoje no esporte ? Perguntas interessantíssimas…

Biotecnologia, Ciências cognitivas 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Uma visão não convencional da restrição calórica

Recentemente, o time da Biomind do Vetta Labs resolveu estudar os efeitos da RC em camundongos usando experimentos de microarray públicos e técnicas de aprendizado de máquina. Esses resultados geraram um paper, aceito para publicação na mais famosa revista relacionada ao estudo de longevidade e envelhecimento, a Rejuvenation Research. Nesse post vou dar uma visão geral sobre a parte biológica da coisa e falar um pouquinho dos resultados que obtivemos – mais detalhes quando o paper sair definitivamente do forno ;-)

Apesar de todas as especulações, até hoje a única ferramenta cientificamente comprovada contra o envelhecimento é a restrição calórica (RC). Bom, tem também o resveratrol, um composto polifenólico extraído da casca das uvas, mas isso já foi assunto de outro post.

A restrição calórica possui, muitas vezes, o poder de até dobrar a vida de camundongos de laboratório, dentre outros animais. A única coisa a ser feita é diminuir em 30% as calorias ingeridas pelos animais, sem, é claro, privá-los dos nutrientes fisiologicamente necessários para que mantenham uma vida saudável - mas com fome.

Os efeitos e o mecanismo fisiológico e molecular de ação da RC em animais vêm sendo estudados a fundo nos últimos anos e muitas teorias foram criadas a respeito de seu funcionamento. Dentre elas, vou descrever algumas:

  • teoria dos radicais livres: quanto mais se come, mais radicais livres serão gerados pelas mitocôndrias e maior será o dano oxidativo e celular, levando à senescência. As mitocôndrias são grandes vilãs do envelhecimento – já dizia Aubrey de Grey!
  • teoria do desenvolvimento: alguns genes, que são responsáveis por um rápido desenvolvimento dos organismos (para que alcancem logo o estágio reprodutivo), são também responsáveis pelo envelhecimento rápido. Acredita-se que esses genes devem ser desativados com a RC - não há comida suficiente para alimentar uma futura prole, então é melhor esperar um pouco - e dessa forma o envelhecimento também é prorrogado ;-)
  • teoria da hormesis – pequenos estresses devem gerar uma mudança nas prioridades dos organismos. A RC, tida como um pequeno estresse, faria com que o organismos priorizassem o combate aos danos oxidativos e o reparo de DNA, ao invés de gastar energia com desenvolvimento e reprodução. Essa mudança de prioridade deve retardar o envelhecimento. Testes já estão sendo feitos com drogas que causam pequenos estresses nos organismos para se conseguir mimetizar o efeito da RC.

Uma maneira de se estudar o efeito da RC é verificando quais genes estão sendo mais ativados ou mais desativados em organismos sob RC, em comparação com organismos em dieta normal e tentar entender por que isso acontece.

Os microarrays são ferramentas excelentes pra esse tipo de tarefa e o pessoal da Biomind do Vetta Labs é especialista em analisar esse tipo de dados, porém de uma maneira não convencional, usando a técnica de aprendizado de máquina (machine learning). Mais detalhes sobre a técnica no post do Omni.

Os resultados obtidos concordam com a hipótese de que os efeitos da RC na longevidade é um processo multifatorial., provavelmente centrado no estresse oxidativo causado pelo funcionamento da mitocôndria, ligado ao reparo de DNA e com uma conexão com a teoria do desenvolvimento (encontramos alguns genes importantes ao efeito da RC ligados às ciclinas, que são relacionadas ao ciclo celular e desenvolvimento). Também encontramos ligações entre genes que ligam as teorias da hormesis e dos radicais livres.

Com isso mostramos que uma tecnologia de aprendizado de máquina pode servir como um amplificador, mostrando relações biológicas que não são claramente perceptíveis nesses dados por técnicas convencionais.

Bom, para os mais curiosos, assim que o paper for publicado colocaremos o link aqui ;-)

Biotecnologia, Inovação 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Depois do genoma, vamos mapear o proteoma

Saiu na nature: existem planos de um pequeno grupo de biólogos para mapear todo o proteoma humano a um custo de 1 bilhão de dólares. Após o genoma, que custou milhares de dólares e por volta de dez anos para ser completado, a idéia agora é ambiciosa: estudar ao invés de genes, proteínas.

As dificuldades são enormes. Primeiro porque as proteínas não são estáticas como os genes – dezenas de versões diferentes de uma proteína podem ser geradas por um único gene codificador. Segundo porque essas proteínas podem ser modificadas pela adição de grupos químicos por inúmeras formas.

Além disso, proteínas são produzidas em diferentes níveis e em diferentes momentos do desenvolvimento do corpo humano, nas mais de 200 diferentes células. Bom, pelo menos o número de genes codificadores de proteínas no ser humano, que se estimava ser alto - por volta de 100 mil – caiu para 21 mil genes.

A estratégia seria usar espectrometria de massa para identificar proteínas e suas quantidades em cada tecido, depois usar anticorpos para marcar sua localização em células e tecidos e finalmente identificar quais as interações entre elas.

Segundo os chefes do projeto, o resultado seria de valor incomensurável perto dos 1 bi gastos, tendo em vista novas drogas e biomarcadores descobertos.

Pelo o que foi dito, um esforço massivo de bioinformática deve ser utilizado. Será que sobra alguma coisa pro time da Biomind(*)?

(*) Nota do Editor: talvez sobre sim. Vale lembrar que a parceria Vetta Labs-Biomind começou com um projeto de melhoria do RADARS, desenvolvido pela extinta Proteometrics em 2001… na época, conseguimos ganhos de desempenhos consideráveis, mas infelizmente o Bin Laden andou aprontando na mesma época e acabou sobrando prá gente. :-(

Biotecnologia 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Pílula contra o envelhecimento?

Como prometido, vou falar um pouco sobre um dos compostos que está em alta ultimamente e dito ser eficaz contra o envelhecimento, o resveratrol.

O resveratrol é um composto polifenólico encontrado na casca de uvas, amendoíns e algumas outras plantas. Esse composto comprovadamente estende a vida de diversos organismos como peixes, moscas e leveduras. Uma das hipóteses desse efeito é a ativação de um gene, a Sirtuína, que tem participação no metabolismo, produção de glicose, insulina e atua na sobrevivência celular. Especula-se que as Sirtuínas participem do mesmo processo que gera aumento da longevidade no qual a restrição calórica participa. Já foi comprovado que o resveratrol ativa Sirtuínas em células humanas.

No final de 2006 um artigo científico foi publicado na famosa revista Nature, que descrevia os efeitos do resveratrol e seu modo de ação em camundongos. Em poucas linhas, camundongos cuja dieta era muito rica em calorias morriam mais rapidamente do que camundongos com a dieta normal, ou com a dieta rica em calorias + resveratrol. Em outras palavras, o resveratrol protegia camundongos contra o efeito negativo de dietas hipercalóricas. Será que isso explica o paradoxo do francês?

Bom, se você estiver interessado, comece a comprar vinho (beba com moderação) e suco de uva - eu já fiz isso! ;-)

Mas se quiser mesmo comprar o “elixir da longevidade”, aprovado pela FDA, dê uma olhada na RevGenetics.

Biotecnologia 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Fusão de Dados e Longevidade

Certos fenômenos que muito interessam atualmente a Biologia têm causas difíceis de serem identificadas, e muito debate e hipóteses a respeito das mesmas. Um desses fenômenos é o aumento de longevidade associado com restrição calórica: é um fato bem conhecido há muitos anos que animais de várias espécies recebendo uma dieta mais pobre em calorias têm tendência a viver muito mais que outros com dieta normal. Dessa forma, há um grande interesse da Biologia, da Medicina e também (como não poderia deixar de ser) da indústria farmacêutica na causa ou causas desse fenômeno. Uma vez que as mesmas sejam identificadas, no melhor dos mundos talvez um “santo graal” já imaginado há um bom tempo seja alcançado: a produção de uma droga simulando os efeitos da restrição calórica - permitindo a uma pessoa ter uma dieta normal e ainda assim viver bem além da expectativa de vida atual. Seria algo que lembraria distantemente o lendário “elixir da vida eterna” - embora “elixir da vida longa” seja um nome mais apropriado, ainda que menos bombástico, nesse caso. :)

Uma das pesquisas realizada pelo Vetta Labs em parceria com a Biomind, foi aceita recentemente para publicação no renomado periódico científico Rejuvenation Research - talvez o mais importante da atualidade em matéria de pesquisa de longevidade - que de fato se ocupa do problema das causas dos efeitos de extensão de vida obtidos pela restrição calórica. Os resultados biológicos que conseguimos com essa pesquisa foram bastante interessantes, mas acho melhor deixar nosso biológo, o Maurício, escrever a respeito dessa parte e da restrição calórica em geral. Afinal, sou apenas um pobre computeiro que só tem uma vaga idéia do que são coisas como a “hipótese da hormesis”. :) Assim, vou me concentrar na nossa abordagem computacional para o estudo das bases de dados relacionadas com restrição calórica, abordagem essa que, modéstia à parte, foi bastante inovadora.

Conforme já mencionei, atualmente existem várias hipóteses concorrentes para explicar qual é o mecanismo central por trás da longevidade por restrição calórica. Ao mesmo tempo, são feitos vários experimentos com enfoques diferentes para se medir ou observar um ou outro aspecto da restrição calórica, e talvez testar um ou outro aspecto das várias teorias para a restrição calórica. Essa abordagem reducionista, porém, ao mesmo tempo que é uma força pode ser uma fraqueza: ao focar em detalhes do problema da restrição calórica, pode ficar bem difícil enxergar a “visão panorâmica” contendo os princípios universais que dão a solução definitiva para esse problema.

Assim, nossa abordagem foi um tanto quanto na contramão do que é feito - em vez de estudarmos uma ou outra base de dados isolada referente a um experimento preocupado com um ou outro aspecto da restrição calórica, integramos bases de dados produzidas por diversos experimentos diferentes - todos eles relacionados a restrição calórica - para daí tirarmos nossas conclusões.

Mais especificamente, lidamos com bases de dados de expressão genética em camundongos. Um mapa de expressão gênica, como o nome sugere, mostra o nível de atividade de um grande número de genes em um dado indivíduo. No caso das bases de dados utilizadas, alguns indivíduos haviam sido submetidos a restrição calórica, enquanto outros era os “controles”, recebendo uma dieta normal. Assim, explicando de um jeito “numérico”, cada base de dados dessas pode ser imaginada como uma planilha (ou matriz) onde as linhas estão associadas aos genes (tipicamente, milhares deles), as colunas estão associadas aos indivíduos (em geral poucos - frequentemente bases de dados de expressão gênica têm algo entre apenas dez e vinte indivíduos), e os números nas células da matriz dizem o quanto o gene X da linha estava expresso no indivíduo Y da coluna. Cada coluna tem ainda um rótulo indicando se o indivíduo correspondente é caso (sofreu restrição calórica) ou controle. As matrizes (bases de dados) que utilizamos foram feita a partir de condições experimentais diferentes, mas no fundo todas comparavam indivíduos com restrição calórica com controles: por exemplo as linhagens de camudongos usadas em uma dada matriz eram diferentes das usadas nas outras; em uma das matrizes, os indivíduos com restrição calórica incluíam camundongos velhos e jovens, enquanto que nas outras a idade era uma variável controlada; e assim por diante.

De novo explicando numericamente, o que nós fizemos foi fundir essas matrizes, e analisar a meta-base de dados daí resultante. Essa “fusão de dados” é bem trivial no caso das colunas - basta simplesmente incorporar todas as colunas de indivíduos de todas as matrizes na mesma matriz fundida. No caso das linhas, porém - isto é, na hora de fundir os genes vindos de base de dados diferentes - fazer a fusão de uma maneira que faça sentido biológica e numericamente está longe de ser elementar.

Uma das reações que a maioria das pessoas tem ao se deparar com um problema desses é pensar em escalar ou normalizar a expressão de um gene em cada base de dados individual, e então fundir as versões normalizadas, e não as contendo os números originais. Dando um exemplo disso usando um tipo de normalização bem simples, imagine que a expressão do gene X varie de 100 a 1000 unidades entre os indivíduos da matriz A, enquanto que nos indivíduos da matriz B varia de 8 a 80. Fazendo uma normalização linear, podemos então dizer que 100 unidades no dataset A mapeia para 0.0 em sua versão normalizada, e 1000 unidades mapeiam para 1.0, e escalamos todos os outros valores para o intervalo [0,1]. Fazendo a mesma coisa com a base de dados B (usando 8 como zero e 80 como 1.0 desta vez), no final temos duas matrizes onde todos os valores de expressão genética caem no intervalo [0,1], e assim a fusão das duas bases parece ser - numericamente ao menos - compatível.

O problema, com alguns já devem ter visto pelos próprios números propositalmente discrepantes usados no exemplo, é que biologicamente isso faz muito pouco sentido. No exemplo a expressão do gene X no dataset A pode ser mais de uma ordem de magnitude maior que no dataset B. Assim, embora a “miraculosa” transformação numérica passe todos os valores para a mesma faixa, o que nós estamos fazendo na prática é usar um gene X que se comporta de forma completamente diferente em dois datasets que tratam do mesmo fenômeno, a restrição calórica. Malabarismos numéricos à parte, isso parece mais um indicador de que o gene X *não é* la muito relacionado com a restrição calórica.

Porém, fomos rigorosos (alguns diriam teimosos :) e decidimos dar a essa abordagem o benefício da dúvida. O interessante na abordagem de aprendizagem de máquina usada pela Biomind e Vetta Labs é que podemos validar essas transformações de dados simplesmente gerando modelos de classificação em cima dos dados transformados, e então observando a qualidade dos resultados de classificação assim obtidos. Em termos bem simples, e restringindo a explicação ao presente caso, um modelo de classificação (ou simplesmente modelo) é uma função lógico-matemática, “descoberta” automaticamente por um método de aprendizagem de máquina, capaz de dizer se um indivíduo é controle ou com restrição calórica, com base em sua expressão gênica. No caso desta pesquisa, o método de aprendizagem usado foi Programação Genética - “evolução” de programas inspirada em princípios Darwinianos. Os programas em si eram bem limitados, na verdade expressões lógicas do tipo “se o gene X tem expressão maior que 0.5 e o gene Y tem expressão menor que 0.2, então o indivíduo tem restrição calórica, senão é controle”, para dar um exemplo simples. Pois bem, aplicando esse processo em bases de dados fundidas por meio de normalização (como exemplicado acima), os modelos alcançaram resultados bem ruins - os modelos acertavam o diagnóstico restrição calórica/controle apenas em 70% dos indivíduos.

O resultado bem melhor, próximo dos 91% de acerto, que efetivamente analisamos, foi obtido com uma abordagem bem diferente, que ao mesmo tempo faz sentido numérica e biologicamente. Nesta abordagem, em vez de forçarmos todos os genes a se conformarem em faixas de valores compatíveis, propositalmente deixamos de usar todos os genes, selecionando apenas aqueles genes cujas faixas de variação de nível de expressão são parecidas nas duas (ou mais) bases de dados sendo integradas. Criamos uma simples medida de “sobreposição” (baseada na média e desvio padrão expressões de um gene em um dataset e em outro) para escolher apenas aqueles genes com faixas de valores mais sobrepostas nas duas ou mais bases de dados em fusão. (Exemplo numérico: suponha um gene X com média de expressão 100 e desvio padrão 10 na matriz A, e média 105 e desvio 15 na matriz B. Isso daria uma sobreposição de cerca de 0.67 para X em A e B, e o gene passaria no limiar de 0.5 usado para a seleção, indo para a matriz fundida final.) Biologicamente falando, se esses genes naturalmente se comportam de forma numérica parecida em bases de dados de restrição calórica diferentes, as chances parecem ser de que os mesmos são intrinsecamente relacionados ao problema da restrição calórica…

Fundimos três bases de dados diferentes - e mais tarde quatro - usando esse método. Na fusão tripla diminuímos o conjunto inicial de mais de oito mil genes para pouco mais de 500; na fusão quádrupla, conseguimos uma lista de genes muito parecida (apenas ligeiramente menor) com a da fusão tripla, indicando que o nosso método realmente estava convergindo para um conjunto de genes particularmente estáveis, robustos, no que diz respeito ao seu comportamento em estudos de restrição calórica.

As matrizes fundidas produzidas por essa abordagem passaram por toda a “linha de montagem” de análises do OpenBiomind, o software aberto para análises de dados de bioinformática desenvolvido pelo Vetta Labs e Biomind. Assim, pudemos gerar modelos de classificação (que conforme já dito acertavam o diagnóstico em mais de 90% dos casos), analisar esses modelos em busca dos genes mais importantes para a classificação, e finalmente montar redes de múltiplas relações entre os genes - mostrando importância de genes, co-ocorrência de genes nos mesmos modelos, co-expressão dos genes nos mesmos indivíduos, etc - que permitiram fechar o cerco em torno dos mecanismos da restrição calórica. Mas aqui, como eu já disse, acho que o Maurício é a pessoa indicada para falar com mais propriedade do que nosso estudo concluiu a respeito dessas redes de relações.

Este estudo de fato representa no campo de aplicação particular da Bioinformática uma lição “a união faz a força” que é recorrente em estudos de mineração de dados: às vezes, integrando múltiplas fontes de dados heterogêneas e indiretamente relacionadas (mesmo que essa integração não seja nem óbvia e nem simples), seus resultados são bem melhores, e lançam muito mais luz sobre o problema em questão, que visões “míopes” focando em um ou outro aspecto do mesmo…

Biotecnologia, Data Mining, Inovação, Inteligência Artificial 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Dr. Strangelove e a neurogênese cortical

Quem achou que o título do post é sobre um novo filme do Austin Powers está enganado. ;-)

A idéia desse post surgiu de uma conversa no labs com o Kenji e o Lúcio. Depois de ler o post da NetFlix do Cassio, acho que vale a pena descrever um exemplo de como a solução de problemas complicados, também na biologia, podem se resolver com idéias simples.

Um desses problemas é um tabu na neurobiologia que afirma que nascemos com um número finito de neurônios no nosso córtex cerebral e não há um crescimento de novas células do córtex enquanto vivemos. Apesar de já haver provas de que há neurogênese em casos específicos (por exemplo após derrames), um artigo que saiu na PNAS em 2006 descreve uma maneira muito sutil de provar que ao longo da vida, em condições normais de temperatura e pressão, não há neurogênese no córtex cerebral de seres humanos.

Mas e o Dr. Strangelove ? ;-) Pra quem não conhece, Dr. Strangelove é um filme de 1964 dirigido pelo Stanley Kubrick, com o Peter Sellers. O filme é uma comédia de humor negro que satiriza a guerra fria e conta a historia de um ataque nuclear dos EUA contra a União Soviética, ordenado por um general americano, que aparentemente havia surtado. Eu citei o filme só pra tornar o título do post mais chamativo, mas o tema do filme é que interessa. ;-) Mais propriamente, o fato de que os EUA realizaram diversos testes nucleares durante a década de 1960, na atmosfera Norte-Americana . Devido a esses testes, o nível de Carbono 14 (C14), que é naturalmente gerado pela entrada de raios cósmicos na atmosfera, foi dobrado na atmosfera americana - mais a frente eu explico por que estou falando disso.

Para quem não sabe, o C14 entra normalmente no ciclo da vida da Terra, pois se incorpora em moléculas de CO2 da atmosfera. Estas acabam por ser incorporadas na biomassa das plantas via fotossíntese e acabam entrando na cadeia alimentar – todos nós temos uma porcentagem de C14 em nossos corpos. O C14 por sua vez não é estável e acaba decaíndo. Dessa forma, é possivel medir a idade de materiais que possuem origem biológica medindo seu nível de C14 (partindo da premissa de que a produção de C14 é a mesma na atmosfera e a sua incorporação na cadeia alimentar se mantém constante).

A grande sacada desse artigo foi exatamente a medição do nível de C14 em pessoas que viveram na América do Norte durante a década de 1960, mais propriamente em tecidos do córtex cerebral e em outros tecidos, antes e depois dos testes nucleares – ou seja antes e depois do pico de produção de C14. A idéia é simples: quando as células se multiplicam há síntese de DNA e necessariamente a incorporação de novas moléculas de C14 nessas células (a medição de C14 em DNA já é comprovadamente fácil de ser feita). Logo, tecidos cujas células se multiplicam rapidamente, como o intestino por exemplo, deverão ter seu nível de C14 duplicado em relação ao período de antes dos testes. Já em tecidos em que, em teoria, não há multiplicação de células, como tecidos de córtex cerebral por exemplo, o nível de C14 deve se manter estável mesmo após o pico de produção de C14. E é exatamente isso que foi medido e comprovado no artigo.

Quem achou que o título do post é sobre um novo filme do Austin Powers está enganado. ;-)

A idéia desse post surgiu de uma conversa no labs com o Kenji e o Lúcio. Depois de ler o post da NetFlix do Cassio, acho que vale a pena descrever um exemplo de como a solução de problemas complicados, também na biologia, podem se resolver com idéias simples.

Um desses problemas é um tabu na neurobiologia que afirma que nascemos com um número finito de neurônios no nosso córtex cerebral e não há um crescimento de novas células do córtex enquanto vivemos. Apesar de já haver provas de que há neurogênese em casos específicos (por exemplo após derrames), um artigo que saiu na PNAS em 2006 descreve uma maneira muito sutil de provar que ao longo da vida, em condições normais de temperatura e pressão, não há neurogênese no córtex cerebral de seres humanos.

Mas e o Dr. Strangelove ? ;-) Pra quem não conhece, Dr. Strangelove é um filme de 1964 dirigido pelo Stanley Kubrick, com o Peter Sellers. O filme é uma comédia de humor negro que satiriza a guerra fria e conta a historia de um ataque nuclear dos EUA contra a União Soviética, ordenado por um general americano, que aparentemente havia surtado. Eu citei o filme só pra tornar o título do post mais chamativo, mas o tema do filme é que interessa. ;-) Mais propriamente, o fato de que os EUA realizaram diversos testes nucleares durante a década de 1960, na atmosfera Norte-Americana . Devido a esses testes, o nível de Carbono 14 (C14), que é naturalmente gerado pela entrada de raios cósmicos na atmosfera, foi dobrado na atmosfera americana - mais a frente eu explico por que estou falando disso.

Para quem não sabe, o C14 entra normalmente no ciclo da vida da Terra, pois se incorpora em moléculas de CO2 da atmosfera. Estas acabam por ser incorporadas na biomassa das plantas via fotossíntese e acabam entrando na cadeia alimentar – todos nós temos uma porcentagem de C14 em nossos corpos. O C14 por sua vez não é estável e acaba decaíndo. Dessa forma, é possivel medir a idade de materiais que possuem origem biológica medindo seu nível de C14 (partindo da premissa de que a produção de C14 é a mesma na atmosfera e a sua incorporação na cadeia alimentar se mantém constante).

A grande sacada desse artigo foi exatamente a medição do nível de C14 em pessoas que viveram na América do Norte durante a década de 1960, mais propriamente em tecidos do córtex cerebral e em outros tecidos, antes e depois dos testes nucleares – ou seja antes e depois do pico de produção de C14. A idéia é simples: quando as células se multiplicam há síntese de DNA e necessariamente a incorporação de novas moléculas de C14 nessas células (a medição de C14 em DNA já é comprovadamente fácil de ser feita). Logo, tecidos cujas células se multiplicam rapidamente, como o intestino por exemplo, deverão ter seu nível de C14 duplicado em relação ao período de antes dos testes. Já em tecidos em que, em teoria, não há multiplicação de células, como tecidos de córtex cerebral por exemplo, o nível de C14 deve se manter estável mesmo após o pico de produção de C14. E é exatamente isso que foi medido e comprovado no artigo.



--> Biotecnologia 2 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Uma vida sem dor

Outro dia (vários meses atrás) li em sites de noticia uma nota sobre o falecimento de um adolescente, vítima de uma queda do telhado de sua casa. O motivo: exibicionismo. O fato é que o rapaz nasceu sem a capacidade de sentir dor física.

Apesar da dor ser um fenômeno necessário para a vida humana (o sentimento de dor pelo menos inibe os seres humanos de se jogarem de telhados ;-), uma vida sem dor é o sonho de todos que passam por momentos difíceis.

Agora vamos ao tema desse post: o caminho para essa panacéia já esta sendo trilhado pela ciência atual. Há pouco mais de um ano (o artigo científico foi publicado no final de 2006), o perfil genético de pessoas que não podem sentir dor física foi traçado. Chegou-se à mais espetacular conclusão: um único gene, o SCN9A, estava mutado, impedindo o funcionamento correto da proteína que ele codifica.

Essa proteína, situada na membrana de células neuronais, denominada canal para sódio dependente de voltagem , tem o papel (grosso modo) de permitir a entrada do íon sódio nas células. Estas proteínas estão diretamente relacionadas com o papel da nocicepção, pois regulam o estimulo elétrico em neurônios e fibras nervosas relacionados à dor. Daí o nome da doença da insensibilidade: chanelopatia associada à insensibilidade à dor (tradução livre).

O legal agora seria a descoberta de uma droga que atue bloqueando especificamente esse canal. Só lembrando que substâncias bloqueadoras de canais de sódio já são conhecidas. Sabe aquele peixe muito apreciado no japão, mas venenoso, o baiacu, ou Fugu? Pois é, ele produz uma das toxinas mais potentes já conhecidas, a tetrodotoxina, que bloqueia especificamente canais de sódio dependentes de voltagem. Paralisa e mata a vítima em poucos minutos.

Agora é só desejar toda a sorte aos cientistas que estão trabalhando com isso (e mais ainda às suas cobaias)! Quem sabe em breve surgirá o analgésico mais poderoso já conhecido.

Biotecnologia 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Clusty não é o palhaço

Esta semana, a Vivisimo, uma spin-off da universidade de Carnegie Mellon especializada em clusterização aplicada a mecanismos de busca, andou levantando um bocado de dinheiro em investimento. Ótimo momento, para quem andou acompanhando a tensão do aceita-não-aceita da proposta de compra da Yahoo pela Microsoft.

Para ver a tecnologia da Vivisimo em ação, confira o site Clusty e faça rapidamente uma busca, digamos, por “harmônica” (também conhecido como gaita de boca).

Além dos resultados tradicionais, note do lado esquerdo que algumas respostas estão “categorizadas” em itens como “blues harp” (gaita blues), “harmonica lessons” (aulas de gaita) e etc.

O interessante da tecnologia da Vivísimo, diga-se de passagem que não é nenhuma novidade, é que essa separação em categorias não é manual. Ninguém colocou um monte de estagiários para separar essas categorias. Isso é clusterização.

Clusterização, a grosso modo, é uma forma de, dado um monte de itens e um conjunto de características destes itens, separar o que é diferente e juntar o que é similar. Como você pode imaginar, há um monte de aplicações interessantes para isso.

Aqui no Labs, uma das aplicações disto é nas pesquisas de biotech que fazemos para diversos clientes, especialmente a Biomind. É comum os biólogos terem vários dados sobre como genes se comportam em diversas condições, e é muito interessante que, suponhamos, dentre 40.000 genes, os biólogos possam analisar apenas uns 10 ou 20 genes que, de alguma forma, tenham um comportamento parecido dentro de um determinado processo (por exemplo, quando comparamos tecidos de pessoas saudáveis e pessoas com câncer). Uma das formas de selecionar estes genes é através de algoritmos de clustering.

Outra aplicação famosa de clustering é no e-commerce. Se você já fez compras na Amazon, deve ter se deparado com aquelas sugestões de itens do tipo “pessoas que compraram este livro também compraram estes outros”. E com o dólar baixo, o dedo coça :-).

O algoritmo que a Amazon usa, que não deixa de ser um tipo muito refinado de clustering, é patenteado e é um tipo de Collaborative Filtering (filtro colaborativo). No fim das contas, baseado no perfil de compras de todos os clientes da Amazon, existem vários conjuntos de clientes que se comportam de maneira parecida, que compram parecido, que gostam das mesmas coisas. O sistema, estudando estes grupos, sugere para o cliente os livros que mais parecem agradar aquele segmento.

Naturalmente que um bom vendedor, ou o dono de uma livraria, aprende com o tempo a “clusterizar” seus clientes, e muito bem diga-se de passagem, enquadrando pessoas dentro de “perfis”. Tal cliente é o estudante de matemática que gosta de livros de ficção. Outra cliente é a dona-de-casa sagitariana que gosta de romances água-com-açúcar. Contudo, vale lembrar alguns aspectos aqui.

  • A Amazon lida com muito mais gente que o nosso competente dono de livraria.
  • A Amazon faz estas contas e indica produtos relacionados o tempo todo, a cada passo que você dá dentro do site deles. O que significa que a NAVEGAÇÃO do site é modificada DINAMICAMENTE, ou seja, o site se ajusta a cada passo do usuário.
  • O algoritmo da Amazon pode encontrar padrões nos perfis de usuários que uma pessoa não encontraria.
  • Estudar estes padrões encontrados pelo algoritmo ajudam a conhecer melhor o seu próprio negócio.
  • Aplicar este tipo de algoritmo aos mais diversos tipos de dados não é uma coisa incrivelmente difícil ou cara.

Fica meu gigante ponto de interrogação: por que a submarino não me sugere outras coisas que eu gostaria de comprar?

krusty-2.jpg

Biotecnologia, Data Mining 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Next Entries »