Aplicações de impressão tridimensional

Ano passado eu escrevi sobre impressoras tridimensionais, ou fabbers. Estas máquinas, capazes de criar objetos tridimensionais de diversos materiais a partir de projetos computadorizados, estão se tornando cada vez mais populares e já foram assunto até de uma breve história do Cory Doctorow, Print Crime (em inglês). Naquele post falei principalmente de equipamentos para impressão, e agora vou falar de algumas das aplicações mais bacanas dessa tecnologia.

A Shapeways é um marketplace que oferece impressão 3D sob demanda. Eles possuem uma galeria de objetos que você pode imprimir, com a possibilidade de personalizar o projeto em alguns casos. Os modelos disponíveis incluem brinquedos, jóias, esculturas, maquetes e muitos outros, como o cubo de Rubik abaixo. Você pode também criar seu próprio projeto 3D, e eles oferecem ferramentas para facilitar a modelagem. E você pode criar sua própria loja dentro do ambiente deles, vendendo seus projetos.

Cubo de Rubik da Shapeways

Cubo de Rubik da Shapeways

Outra aplicação útil é a fabricação sob demanda de peças de reposição para equipamentos que já não são mais fabricados. O comediante e apresentador de TV Jay Leno, por exemplo, tem uma coleção enorme de carros antigos, alguns com mais de um século de idade. Ele tem a própria oficina para manutenção da coleção e, quando precisa trocar uma peça de um carro muito antigo, como esse carro a vapor de 1907, ele usa um scanner 3D e uma impressora de metal para gerar a nova peça, com dimensões perfeitas.

Mas a aplicação até agora mais revolucionária é para medicina. A Organovo, uma startup de San Diego, California, criou uma bioimpressora para medicina regenerativa. A bioimpressora, que está sendo implantada em laboratórios de pesquisa em medicina regenerativa ao redor do mundo, já é capaz de produzir tecidos simples, como pele, músculos e pequenos vasos sanguíneos. Os planos dos cientistas da empresa são de, em menos de dez anos, produzir vasos sanguíneos para tratamento de infarto, eliminando a necessidade de pontes de safena. Com mais pesquisa, será possível contruir estruturas mais complexas e, talvez algum dia, órgãos artificiais.

Um kit Makerbot

Um kit Makerbot

E para quem quer brincar com essas impressoras como hobby, a Makerbot vende kits de impressoras, assim como os suprimentos para impressão. Os kits custam a partir de US$750,00, e são bem feiosos, mas a qualidade da impressão é razoável. Embora os resultados não se aproximem do que é possível com impressoras industriais, essas custam cem vezes mais…

Eu quero um brinquedo desses no dia das crianças ;-). O que você faria com um?

Biotecnologia, Inovação 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 4,00 out of 5)

Fluídica: Computação a Água

No meu artigo anterior falei sobre a idéia de computadores completamente mecânicos, falando um pouco da Máquina de Turing (um modelo matemático de um computador abstrato) e das Máquinas Diferencial e Analítica de Charles Babbage (inclusive sobre implementações em LEGO). Depois que publiquei me lembrei que poderia ter citado também o Mecanismo de Anticítera – então agora remeto vocês para o artigo sobre ele escrito pelo amigão Kentaro Mori.

Depois dos computadores mecânicos, no final eu prometia falar de computadores fluídicos – computadores sem partes móveis em que o fluxo de elétrons é substituído por fluidos como ar, água ou óleo, com tubos, canos e mangueiras ao invés de fios. Ao assunto, então!

Fluídica na Ficção Científica

Provavelmente o primeiro contato com de muita gente com a idéia foi assistindo ao clássico Rollerball – Os Gladiadores do Futuro (1975). No filme existe Zero, um supercomputador fluídico baseado em lógica fuzzy que armazena toda a informação de todos os livros do mundo:

rollerball

Livros, livros ? Mudaram completamente. Todos foram transcritos. Toda a informação está aqui. Temos o Zero, é claro. Ele é o cérebro central, o cérebro do mundo. Mecânica de fluidos, fluídica. Ele é líquido, vê ? Suas águas tocam todo o conhecimento do mundo. [...] Ele flui por todos os nossos sistemas de armazenamento. Ele considera tudo. Tornou-se tão ambíguo hoje em dia que parece não ter certeza de nada.

Hoje em dia, mesmo sem o Zero é fácil encontrar o trecho de Rollerball em que Zero aparece (vídeo em inglês, sem legendas em português) e também o script original do filme.

Rollerball é 1975, e na época a Fluídica estava bombando – uma quantidade enorme de verbas foi investida em sua pesquisa, nos Estados Unidos (falaremos disso mais tarde) – e provavelmente por isso ela foi a tecnologia escolhida para aumentar a suspensão de descrença do filme.

Água x Elétrons

Quando estudava eletrônica (e até hoje, quando preciso explicar pra alguém) eu costumava imaginar que os elétrons se comportavam como água. Carga elétrica (em Coulombs) virava quantidade de água (em litros). A corrente (em Ampère, Coulomb por segundo) virava o fluxo de água (litros por segundo). A tensão da corrente (em Volts) é equivalente à pressão da água, e a resistência de um fio, à espessura do cano que transporta o líquido.

Uma bateria armazena energia potencial química, que causa uma diferença de potencial elétrico nos terminais (que faz com que a corrente elétrica circule). No nosso exemplo didático, temos uma caixa d’água, e a diferença de pressão entre a caixa d’água e um cano no térreo é o potencial que coloca a água nos canos em movimento (usando a energia potencial gravitacional). Quando você abre a torneira (o interruptor) a diferença de pressão (potencial) faz com que a água (elétrons) fluam da caixa d’água (pólo positivo) pelo cano (fio) até o ralo (pólo negativo / “terra”).

Pensar desse jeito torna o básico que se aprende de eletrônica e eletricidade no ensino médio algo bem concreto – a maioria das pessoas já brincou mais com mangueiras de jardim e torneiras do que com fios e baterias. Fica fácil entender porque uma tensão (pressão d’água) muito alta danifica um aparelho (ao ligar um aparelho 110V numa tomada 220V) mas uma bateria com capacidade de fornecer muita corrente não danifica aparelhos de baixo consumo (você simplesmente tem mais água na caixa d’água).

De qualquer forma, eu imaginava que esse raciocínio era só um recurso didático, e não poderia ser aplicado em nada mais sofisticado. Por exemplo, eu sempre imaginava torneiras – dispositivos mecânicos, móveis, que controlam o fluxo, da mesma forma que interruptores fazem com a corrente elétrica. Mas o mais interessante da eletrônica (pelo menos pra mim, na época) era usar a eletricidade para controlar eletricidade: usando um transistor (o amplificador mais simples que existe) uma corrente elétrica de baixa intensidade controla uma corrente elétrica muito mais forte (e.g. a corrente baixíssima induzida por um microfone controla a corrente muito mais alta consumida pelas caixas de som enormes no seu show de rock preferido).

Descobri que meu problema era fazer um transistor de água. Anos mais tarde eu iria aprender como fazer um, lendo sobre uma feira de ciências de 1962!

Os Circuitos de Água de Murray O. Meetze, Jr.

Em 1962, o estudante de segundo grau Murray O. Meetze, Jr, ganhou a Feira Nacional de Ciências de 1962, nos Estados Unidos. O projeto dele era o equivalente a uma válvula triodo a água, sem partes móveis. A válvula triodo foi aposentada há décadas; hoje em dia ninguém a usa (exceto uns poucos audiófilos, entusiastas de rádios e TVs antigos, ou interessados em aplicações muito específicas). Ela foi substituída pelo seu equivalente de estado sólido (feito apenas com metais semicondutores, sem necessidade de tubo de vidro a vácuo), o transistor.

Certa vez, completamente por acaso, eu me deparei com uma longa reportagem numa Scientific American da época, descrevendo o tabalho de Meetze. Eu fiquei maravilhado; as soluções dele eram incrivelmente simples, e com elas daria pra aumentar meu “laboratório fluídico imaginário” de uma forma que não achava que seria possível. Além do transistor, Meetze mostrava como fazer um flip-flop (ou multivibrador bi-estável) fluídico, o equivalente a um bit de memória RAM, e também um amplificador (com funcionamento igual ao de um amplificador eletrônico de som).

meetze-flipflop

Depois de vários anos procurando, enquanto me preparava para escrever esse artigo eu encontrei novamente a deliciosa matéria da Scientific American. A qualidade do scan está bem baixa, mas a leitura é recomendadíssima. Uma curiosidade: a página sobre Fluídica da Wikipedia em inglês cita Murray O. Meetze como criador da válvula triodo fluídica, mas não dá referências! Vou tentar editar o post para incluir isso, mas é preciso uma correção: o próprio Meetze diz à Scientific American que a tecnologia havia sido desenvolvida pelo Diamond Ordnance Fuze Laboratories, do exército americano, mas quase tudo era confidencial na época.

Com transistores fluídicos eram possível criar portas lógicas fluídicas. Com portas lógicas e flip-flops, a única coisa que impedia a construção de um computador completamente fluídico era o tamanho ! Aliás, recentemente um estudante do MIT pôs a mão na massa e resolveu fazer algo parecido, usando – é claro – peças de LEGO! O projeto, bem simples, foi feito com fins exclusivamente didáticos – bem alinhado com o que me despertou o interesse por fluídica (e também com o trabalho de Meetze).

mlfabpauloandadder1

Ao revisar esse artigo, o Kentaro me falou de um outro tipo de computador baseado em água, o MONIAC. Ele também foi construído originalmente com fins didáticos, mas era capaz de fazer simulações bem complexas da economia do Reino Unido. O MONIAC é um computador analógico que usa quantidade de água para representar os dados, como os integradores a água da União Soviética dos anos 1930, que eram capazes de resolver equações diferenciais parciais não-homogêneas – se você sabe o que é isso vai entender a importância da coisa! Mas o MONIAC era baseado em hidráulica, não em fluídica. A diferença é que sistemas hidráulicos têm várias partes móveis, mecânicas – êmbolos, pistões, “torneiras”, etc.  – uma abordagem bem diferente da fluídica, onde só o que se move é o próprio fluido.

A Fluídica nos Anos 1960-1980

Assim como eu, muita gente ficou animadíssima com as possibilidades que a Fluídica trazia. Nos anos 1960 e 1970 computadores eletrônicos eram frágeis, caros e lentos, e a robustez e simplicidade dos circuitos fluídicos era muito atrativa. Esse entusiasmo é fica claro ao ler artigos da época, publicados em revistas como Popular Mechanics e Popular Science. O divertido é que o conteúdo integral dessas revistas está disponível on-line, gratuitamente; o Google, mesmo sem tecnologia fluídica, faz o papel do Zero de Rollerball, hoje em dia! :-) Além disso, os artigos são extremamente acessíveis, explicando de forma bem clara o funcionamento dessa Fluídica de primeira geração.

Na época falavam-se, por exemplo, de circuitos fluídicos para controlarem o câmbio automático e a injeção de combustível em automóveis (ao invés da moderna injeção eletrônica que temos hoje), e substitutos fluídicos dos giroscópios dos sistemas de navegação pré-GPS.

Fluídica: Como Ensinaram uma Corrente de Ar a Pensar. Popular Science, junho de 1967

Controle Potência com Fluido. Popular Mechanics, julho de 1967

coanda

Mais tarde, outras aplicações envolviam aviônicos e circuitos de controle de mísseis e aviões militares; a idéia é que no caso de um ataque nuclear, o pulso eletromagnético gerado pelas bombas danificaria qualquer aparelho eletrônico, tornando impossível o vôo de caças aerodinamicamente instáveis. Caças aerodinamicamente instáveis precisam de auxílio de computador o tempo todo durante o vôo; um dos primeiros exemplos famosos foi o Grumman F-14 Tomcat, cujo ângulo das asas e outras superfícies de vôo é controlado por um dos primeiros microprocessadores eletrônicos integrados (desenvolvido secretamente antes do histórico Intel 4004).

Em 1985 a mesma Grumman investia pesadamente em sistemas fluídicos de controle de vôo, e nem tudo ficou só na especulação ou em projetos militares de pesquisa; chegaram a ser produzidos modelos do Honda Accord com esses sistemas de navegação, por exemplo.

Fluídica: Computação sem Eletrônica. Popular Science, fevereiro de 1985

Mas apesar do oba-oba a Fluídica nunca obteve o sucesso previsto, muito provavelmente por causa do avanço rápido da eletrônica. Válvulas eram caras e frágeis, mas com o advento do transistor e, mais tarde, do circuito integrado tornou-se possível o uso de eletrônica em cenários muito mais críticos e extremos, e o chão de fábrica foi um dos primeiros alvos. A velocidade dos circuitos eletrônicos – milhares ou milhões de vezes superior a dos fluídicos – foi outro fator decisivo para a tecnologia ser esquecida ou relegada a nichos muito específicos.

1990s: Microfluídica

A Fluídica clássica não cumpriu todas as promessas, mas nos anos 1990 surgiram vários produtos baseados na sua prima de menor escala, a Microfluídica. A diferença está na escala: circuitos cujos dutos são da ordem de micrômetros (e não milímetros ou centímetros) apresentam comportamentos muito diferentes, porque nessa escala efeitos antes desprezíveis como tensão superficial e fluxo laminar tornam-se importantíssimos. Essa escala menor permite, por exemplo, que construam circuitos fluídicos “digitais”, em que se manipulam não um fluxo contínuo de fluido mas minúsculas gotas individuais.

Uma das tecnologias mais populares que foram muito influenciadas pela microfluídica foram as células de combustível. Células de combustível produzem eletricidade diretamente a partir de oxidante e combustível (oxigênio e hidrogênio, na maioria das vezes), sem a necessidade da tradicional combinação de motor a explosão e gerador elétrico (como nos carros). A microfluídica é usada para controlar o fluxo de oxidante e combustível, tornando essas células muito mais eficientes.

Mas, de longe, a aplicação de microfluidica que mais me interessa são os microarrays de DNA. Microarrays são chips, produzidos por processos microfluídicos, que contém milhares de fragmentos de material genético, organizados em forma de matriz. Quando se deposita material genético nesse chip, ele identifica exatamente quais trechos de material genético – quais genes – estão ativos naquela amostra. Isso permite a criação em larga escala de perfis de expressão genética, ou seja, perfis que mostrem quais genes do DNA estão “funcionando” num determinado momento. Simplesmente saber a seqüência de genes de um organismo (o objetivo do projeto Genoma) não é tudo; é muito mais importante descobrir como esses genes interagem entre si e a dinâmica deles ao longo da vida. Doenças, atividade física e intelectual, e vários outros fatores ativam e desativam a expressão genética em questão de horas, e os microarrays permitem que se tire uma “foto” dos genes em atividade.

Aqui no Vetta Labs trabalhamos há vários anos desenvolvendo software para análise de perfis de expressão genética produzidos por experimentos com microarrays. A maior parte desse esforço é feito em conjunto com a empresa americana Biomind, e desse esforço surgiu também um projeto opensource de ferramentas de bioinformática, o OpenBiomind, cujo principal mantenedor é o amigão Lúcio “Dr. Omni” Coelho.

O Futuro: Nanofluídica

Quando reduzimos ainda mais a escala saímos da microfluídica e entramos em algo ainda mais complexo, a nanofluídica. Agora os “canos” dos circuitos fluídicos são tão pequenos que sua espessura pode ser medida em moléculas dos fluidos que passam por eles (são usados, por exemplo, nanotubos de carbono). Nessa escala a noções como viscosidade e as propriedades elétricas das moléculas envolvidas são completamente diferentes do que se observa em circuitos fluídicos e microfluídicos, produzindo efeitos extremamente interessantes, como a dupla camada elétrica produzida usando nanocapilares.

As pesquisas em nanofluídica despertam muito interesse hoje; os planos são o desenvolvimento, por exemplo, de “laboratórios em um chip”, um circuito nanofluídico e microfluídico capaz de realizar uma série de experimentos bioquímicos de forma autônoma, usando amostras reduzidíssimas de material. Esses laboratórios poderiam ser utilizados em diagnóstico de doenças, monitoramento e análise de ambientes, aplicações de segurança como detecção de armas químicas e explosivos.

A Fluídica não é mera curiosidade histórica ou recurso didático. Como a maioria das tecnologias, as previsões feitas a respeito de como ela seria utilizada se mostraram bem distantes da realidade; ao mesmo tempo, as aplicações reais desenvolvidas acabam se mostrando ainda mais fantásticas e interessantes que os sonhos dos primeiros pesquisadores.

Biotecnologia, Robótica, Teoria da Computação 2 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (3 votes, average: 5,00 out of 5)

Google Summer of Code 2009

Aqui no Vetta Labs são desenvolvidos vários projetos da Novamente, e com isso temos bastante contato com o Singularity Institute for Artificial Intelligence (SIAI). Desde o ano passado o SIAI é um participante do Google Summer of Code, um programa que paga bolsas (US$ 4000) para estudantes do mundo todo trabalharem em projetos de código aberto e software livre durante o as férias do verão americano (daí o nome).

Os estudantes são orientados por mentores ligados às  organizações participantes. No GSoC 2008 fui mentor do projeto OpenBiomind-GUI, que desenvolveu uma interface gráfica para um conjunto de ferramentas open source para bioinformática. Outro colega, Lúcio de Souza Coelho, também participou como mentor. Foi uma experiência muito interessante e gratificante.

E agora foram abertas as inscrições para o Google Summer of Code 2009! Estudantes no final da graduação e em pós-graduação podem participar, submetendo propostas baseadas nas idéias sugeridas pela organização, que incluem projetos em inteligência artificial e robótica  (OpenCog), processamento de linguagem natural (Link Grammar e RelEx), bioinformática e outros temas.

As propostas são avaliadas pelos mentores e outros membros do grupo, e as melhores são aceitas no programa. Ano passado houve 70 propostas para 11 vagas. A data limite para submissão de propostas é 3 de Abril.

A página principal do GSoC tem todas as informações necessárias:

http://socghop.appspot.com

A página do SIAI no Google Summer of Code, especificamente, é a seguinte:

http://socghop.appspot.com/org/show/google/gsoc2009/opencog

Biotecnologia, Desenvolvimento, Inteligência Artificial, Linguagem Natural 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (2 votes, average: 5,00 out of 5)

Trabalho da Biomind agora é capítulo de livro

From: Jamie Cuticchia
Date: Tue, Mar 10, 2009 at 9:30 AM
Subject: CAMDA 2006

We are pleased to announce that Method of Microarray Data Analysis VI has been published.  The citation to the book is:

McConnell, P, Lim, S., and A.J. Cuticchia,  Methods of Microarray Data Analysis VI.  (Scotts Valley, California:  CreateSpace Publishing, 2009).

Thank you for your participation in the conference and your submission
to this publication.

A.  Jamie Cuticchia, PhD
Duke University Medical Center

Parabéns Biominders :-)

O blog anda quieto, a gente sabe. É que estamos atolados de serviço.

Biologia, Biotecnologia 2 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 5,00 out of 5)

Lidando com datasets minúsculos

Há um tempo atrás, escrevi aqui no Tecnologia Inteligente um artigo onde eu criticava algumas esperanças meio irreais sobre o que se pode fazer com bases de dados (ou datasets, o anglicismo que efetivamente usamos o tempo todo no nosso trabalho :) imensamente grandes. Já neste artigo, pretendo analisar um problema que de certa forma é oposto – o das bases de dados pequenas demais.

Sim! Por incrível que pareça, em uma era onde se fala em “dilúvio de dados” em quase todos os campos da Ciência e terabytes rapidamente caminham para a trivialidade, ainda assim às vezes, em certos casos específicos, a quantidade de dados disponível é muito menor do que poderia ser considerado satisfatório. 

De fato, tive inspiração para escrever este artigo porque nas últimas semanas estava lidando com um dataset biológico muito pequeno, com dados caracterizando apenas seis amostras. Ah, sim, aqui é importante frisar que era um dataset pequeno em número de amostras, mas cada amostra era caracterizada pelos valores de expressão de dezenas de milhares de genes, totalizando um tamanho de uns dois megas.

O que, a propósito, há muito parece um tamanho ridículo em nossa era onde facilmente temos arquivos de vários gigas, mas de qualquer modo já é um tamanho humanamente intratável e que exige análises computadorizadas.

Outro comentário pertinente é relacionado com o fato de que muitos podem achar estranho um dataset biológico ser pequeno, já que a fama é de serem enormes. Bom, o caso é que muitas vezes, para certos problemas, coletar dados de um grande número de amostras pode ser difícil, ou caro, ou ambos. Pense em indivíduos com condições médicas raras, ou então em exames médicos que são caríssimos, e vai ser fácil juntar os pontos para ver como aparecem com razoável freqüencia datasets biológicos minúsculos.

Bom, qualquer que seja o motivo da escassez de amostras, como lidar com esses números reduzidos em um estudo de aprendizagem supervisionada? Eu tenho a seguinte receita de bolo de três passos:

Validação leave-one-out

Depois que são treinados com (duh! :) dados de treino, classificadores são validados com dados de teste que eles nunca “viram”, os famosos out-of-sample.  Dado um conjunto inicial de amostras, existem diversas formas de “produzir” conjuntos de teste e treinamento.

A mais simples delas é simplesmente escolher aleatoriamente uma fração (digamos, 2/3) das amostras para treinamento, e usar o restante para teste.

Uma segunda forma mais sofisticada e confiável, que torna mais improvável a seleção de conjuntos de treino e teste irrealmente favoráveis, é a chamada cross-validation.

Nesta política de validação, o dataset inicial é dividido em n subconjuntos com mais ou menos o mesmo número de amostras, e correspondentemente são feitos n pares de treino e teste: no primeiro par o subconjunto 1 é usado para teste e o restante para treinamento; no segundo par o subconjunto 2 é usado para teste e o restante para treinamento; e assim por diante.

Pois bem, no caso de datasets com pouquíssimas amostras, o ideal é usar o leave-one-out (“deixe um de fora“, numa tradução literal que funciona), que é o caso especial de cross-validation onde n é igual ao número de amostras da base – isto é, a cada par só uma amostra é usada como teste e todas as outras para treinamento.

Esse tipo de validação minimiza ao extremo a probabilidade de formação de pares “privilegiados” de treino e teste, a qual já não é tão pequena assim em datasets minúsculos.

Análise de Permutação:

Vamos supor que você foi cuidadoso na fase anterior de validação, usando leave-one-out, e descobriu que seus classificadores têm um desempenho maravilhoso nos dados, com altas acurácias tanto nos conjuntos de treino quanto de teste.

Mas, se você for realmente rigoroso (alguns diriam paranóico, mas a paranóia quase chega a ser uma virtude na Ciência :), deverá considerar a possibilidade de que talvez seus resultados sejam tão bons porque o número de amostras é pequeno e é fácil para o seu algoritmo decorar algumas propriedades numéricas dos dados que *por coincidência* podem ser usadas para distinguir corretamente as categorias (digamos que casos de controles), mas não necessariamente são relacionados com o problema real que está sendo estudado.

A solução para verificar essa terrível possibilidade é fazer a assim-chamada análise de permutação. Esta é um “embaralhamento”: consiste em trocar aleatoriamente os rótulos de categoria entre as amostras. Gerando muitas permutações diferentes e vendo que as acurácias dos testes feitos com dados “embaralhados” são menores que o resultado obtido com os dados reais, pode-se inferir que as acurácias excelentes devem ser também “reais”, correspondendo a padrões relevantes para o problema investigado.

Nota: aqui estou falando em acurácia – que talvez seja a métrica de qualidade de classificação mais comum, óbvia e intuitiva – mas existem outras métricas, e o que estou dizendo aqui usando acurácia também vale para elas.

Comportamento com métodos não-determinísticos:

Às vezes, nem a análise de permutação pode ser suficiente. Se o dataset for muito pequeno mesmo, o número total de permutações pode ser tão modesto que não permite calcular um alto valor de significância estatística.

No dataset de apenas seis amostras que mencionei, o número de embaralhamentos utilizáveis era de apenas 18. Quando se nota que tradicionalmente o limiar de significância interessantemente para os biólogos é de 0.05, ou uma chance em 20 dos seus resultados serem “falsos”, 18 permutações parecem problemáticas para decidir se seus resultados passam nesse limiar. :) Como então contornar essa forma extrema do problema dos datasets pequenos?

Uma opção interessante pode ser usar um método de classificação não-determinístico (por exemplo GA, GP, vários modelos de redes neuronais, etc) e realizar vários testes de classificação sobre os seus dados reais e sobre os dados permutados.

Um método não-determinístico não necessariamente produz o mesmo classificador com os mesmos dados de entrada, e assim no final essa etapa de validação terá gerado um monte de classificadores diferentes – uns melhores, uns piores que os outros. Interessantemente, agora é possível se falar em comparação de distribuições de acurácias, e não de um dado pontual de acurácia nos dados reais versus um pequeno conjunto de acurácias “embaralhadas”.

Essas distribuições podem ser tão grandes quanto se queira – basta gerar mais classificadores de forma não-determinística – e quanto maior o número de pontos amostrais envolvidos, mais estatisticamente significativa será qualquer discrepância entre as distribuições com e sem embaralhamento.

Moral da história

Enfim, o ideal mesmo em vários processos científicos é trabalhar com números grandes de amostras, mas se as vicissitudes da vida um dia obrigarem você a lidar com datasets minúsculos, não se desespere! Com os macetes descritos há uma boa chance de você espremer (admitidamente de forma um tanto lenta e dolorosa)  alguns padrões confiáveis apesar de tudo; ou na pior das hipóteses demonstrar confiavelmente que seu dataset não presta mesmo. :)

Biotecnologia, Data Mining 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)

Biocuradores – quem são esses caras?

Saiu na Nature de 4 de setembro de 2008 e na PLoS Computational Biology de 27 de agosto , alguns artigos e comentários sobre o papel dos biocuradores (“biocurators”) na ciência atual.

Mas por que surgiram, quem são e o que fazem esses biocuradores?

Pra começar, eles nasceram com essa grande avalanche de dados, muito falada atualmente, iniciada na última década e com o acesso rápido a todos esses dados por meios eletrônicos.

Um exemplo legal do artigo da Nature: mais de 18 milhões de artigos científicos estão indexados no PubMed, mais de de 260.000 espécies de organismos têm sequências de nucleotídeos depositadas em bases de dados online e foi anunciado recentemente que irão sequenciar 1.000 genomas humanos em três anos para o estudo de SNPs! É realmente um monte de informação pra analisar!

Biocuradores geralmente são biólogos que possuem uma mescla de habilidades que variam desde realizar pesquisas científicas anvançadas, passando por uso e administração de bancos de dados, conhecimento de múltiplos sistemas operacionais e linguagens de script.

Essas habilidades são necessárias exatamente para lidar com essa grande quantidade de dados. Biocuradores lidam com o “raw data”, extraem informações de publicações científicas, marcam, formatam e categorizam os dados e disponibilizam a informação online no final.

Na Plos são citados dois exemplos de biocuradores. Um atua no PDB curando e validando os modelos tri-dimensionais de proteínas lá depositados. Outro no IEDB, um banco de dados sobre imunologia, onde ele extrai informações sobre as sequências desse banco.

Aqui na Vetta, acho que posso dizer que eu o Lúcio e o Kenji compomos o time de biocuradores da Biomind (apesar de eu ser o único biólogo). ;-)

Nas atividades que participo, nós analisamos informações de sets de dados de microarrays, lidando e formatando tabelas com milhares de genes, muitas vezes tentando encontrar notações não redundantes para cada gene e colocando tudo em um formato adequado para rodar as análises de classificação por machine learning. Como diria o Lúcio, é preciso ‘crunchar’ os dados antes de analisar. ;-)

Depois é necessário verificar os resultados, checando as funções de diversos genes em diversas bases de dados, analisando a literatura científica e cruzando as informações pra ver se os resultados obtidos fazem algum sentido biológico.

Dá muito trabalho mas é bastante gratificante, principalmente quando dá certo! ;-)

Biologia, Biotecnologia 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)

Systems biology – com ‘b’ minúsculo

Apesar da modelagem e simulações de sistemas ser uma prática bastante antiga, o grande aumento de dados e informações sobre sistemas biológicos, especialmente na última década, fez surgir um ‘ramo’ da bioinformática denominado Systems Biology.

Trabalhar com systems biology significa criar modelos e simulações que tentam descrever o funcionamento de moléculas, reações bioquímicas e até sistemas celulares inteiros!

Um dos grandes problemas atualmente na system biology é na modificação e reuso de modelos pré-existentes. Parece que os modelos já criados são muito específicos e de difícil entendimento para quem não participou na sua criação. Na tentativa de sanar tal problema, surgiu a SBML, ou Systems Biology Markup Language, que é um formato comum de troca de dados, que usa XML.

A little b, o assunto do post de hoje, é, diferentemente da SBML, uma linguagem de programação open source desenvolvida no intuito de se criar modelos matemáticos de fácil troca e reúso. Criado na Bauer Center for Genomics Research, little b foi desenvolvida em LISP. A escolha da linguagem foi explicada assim: LISP parece conseguir tratar de problemas de grande complexidade com mais facilidade que outras linguagens.

Mais especificamente, LISP parece abstrair a complexidade biologica mais facilmente em linhas de código de fácil entendimento – acho que os computeiros podem explicar melhor , tem algo a ver com o sistema de macros :-)

Para exemplificar melhor, vai abaixo um exemplo interessante de código little b, que pode ser acessado em um curso-rápido disponibilizado: a isomeração de Glucose 6P (G6P) em Frutose 6P (F6P), reação reversível e parte da via glicolítica, catalizada pela enzima Glucose 6P Isomerase (G6PI) – os bioquímicos vão adorar ;-)

G6P + G6PI <-> G6PI + F6P

Para saber mais sobre little b, acessem diretamente o paper publicado ou então a home page. E boa modelagem a todos!

PS: enquanto isso estou esperando uma resposta do Aneil Mallavarapu, um dos autores da linguagem, pra saber por que a linguagem se chama little b :-)

Biologia, Biotecnologia 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 1,00 out of 5)

Na Biologia, a moda agora é criar um Wiki

Há um mês atrás eu postei sobre o WikiProteins, que é um Wiki biológico destinado à anotação de proteínas.

Mais recentemente, no início desse mês, a PloS Biology publicou um artigo sobre o Wiki Genes. O Wiki Genes é algo bastante parecido como o WikiProteins, mas voltado para prover informação sobre genes. E é voltado para ser implementado na própria WikiPedia!

A idéia dos caras foi a de colocar uma entrada na WikiPedia pra cada gene humano (e ainda pra alguns organismos modelo como o camundongo). A premissa foi a de que editores de Wikis preferem editar entradas já existentes do que criar novas. Dessa forma, a geração desses stubs (entradas no Wiki com pequenas coleções de informações) deverá alavancar a edição de genes humanos na WikiPedia.

O que eles fizeram foi parsear as entradas de todos os genes presentes no Entrez Gene e gerar cerca de 7500 stubs. Melhor do que as meras 650 entradas que existiam anteriormente. ;-) Aparentemente o resto das entradas ainda está sendo gerado – o Entrez Gene contém informação de 39950 genes humanos – não que esse seja o número total de genes humanos, mas essa é outra história. ;-)

O parser, que foi feito em Java, produz um stub diretamente em “wiki-text” e o código-fonte está disponível.

Também na PLoS saiu bem recentemente um outro artigo sobre um Wiki na área de biologia, dessa vez o Wiki Pathways. Os pathways, na biologia, são uma representação de uma miríade de interações, reações e regulações, seja entre genes, proteínas ou compostos biológicos. Por serem extremamente complexos e difíceis de curar e compilar, a estratégia foi também a de gerar um Wiki.

Aparentemente, com essa enxurrada de dados biológicos sendo gerados à todo vapor (vide as “ômicas” da vida – genômicas, proteômicas,metabolômicas, etc.), a corrente agora é para a integração desses dados, em ferramentas que permitem updates rápidos e fáceis.

E pelo visto, esses novos Wikis são o tipo de ferramenta que vêm a calhar nesse momento, pois tornam os dados acessíveis e editáveis aos curadores especialistas bem como para a comunidade em geral.

Vamos ver se a moda pega.

Biologia, Biotecnologia, Data Mining 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)

Sobre congressos, uvas e resveratrol (de novo!)

Estou de volta da XXXVII Reunião Anual da Sociedade Brasileira de Bioquímica e Biologia Molecular (SBBq) que aconteceu em Águas de Lindóia – SP semana passada.

Desde que eu me enveredei por essa área científica, há uns 10 anos atrás, tenho ido frequentemente a congressos (mais ou menos um por ano em média). Muitos acham um saco, mas eu acho bom por quatro motivos:

  • Conhecer pessoas – que trabalham com a mesma coisa que você e que fazem coisas completamente diferentes que você.
  • Atualização.
  • Quebra de rotina – que pode ser massacrante ;-)
  • Conhecer novos lugares – é bom viajar, principalmente quando recebemos auxílio financeiro pra isso! :-)

A SBBq tem uma seção só de bioinformática e daí dá pra tentar ver mais ou menos pra onde a área está se enveredando. Grosso modo, deu pra perceber, mesmo com o viés por ser um congresso de bioquímica, que as coisas estão migrando para a área de proteômica – eu vi diversos posters com modelagens 3D de proteínas e proteômica de um modo geral e nenhum sequer sobre microarrays, por exemplo.

Nesse congresso aproveitei para conversar com uma especialista em uvas. A garota se chama Caroline e é lá do Sul, mais especificamente do Instituto de Biotecnologia de Caxias do Sul – RS. O pôster dela me chamou atenção por se tratar de composição do extrato de uvas e eu queria saber a opinião dela sobre o resveratrol. Durante a conversa, deu pra perceber que ela estava bem por dentro do assunto (e depois deu pra saber por que: a moça tem diversos papers sobre estudos de compostos de uvas ).

Daí eu aproveitei pra perguntar se ela tomaria resveratrol em doses orais. A resposta foi bem incisiva: Não. Primeiro porque não existe nada realmente provado que o resveratrol combate o envelhecimento (apesar de proteger os camundongos contra doenças relacionadas a dietas hipercalóricas). E segundo porque as concentrações de resveratrol no vinho e suco de uva são muito menores do que doses orais de resveratrol puro – inclusive, algumas substâncias ditas antioxidantes em doses baixas, se tornam oxidantes em doses maiores, como é o caso da vitamina C.

Então, para os menos radicais, acho que o negócio é ficar só no suco de uva e vinho mesmo ;-)

Depois comento sobre o outro poster que eu vi que enfatiza os malefícios dos produtos da queima do diesel para células do sistema imune – seria uma propaganda para o biodiesel?

Biologia, Biotecnologia 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)

WikiProteins: um site público para a anotação de proteínas

Está no ar o WikiProteins beta, que é parte de uma iniciativa iniciada anteriormente, o WikiProfessional. A idéia é a mesma do WikiPedia porém voltada para a anotação de proteínas.

A anotação é um processo de caracterização de proteínas, principalmente de sua função. Existem biólogos em constante processo de anotação de proteínas e genes. Esse processo pode se dar em intervalos curtos de tempo, como em projetos genomas, onde diversos novos genes são descobertos e precisam ser anotados. Ou como em projetos de longo prazo, como a anotação de todo o UniProt, por exemplo.

Em ambos os casos todos os tipos de informações sobre genes e proteínas tentam ser coletados, assim como dados de função, localização, informações estruturais, artigos científicos relacionados, etc. O WikiProteins provê exatamente esse tipo de informação de maneira editável por qualquer um.

É claro que foi necessário um esforço computacional inicial pesado pra reunir diversas informações de proteínas e genes em um único pool inicial pra servir de startup pro wiki. E os dados foram minerados de fontes bem confiáveis, como o PubMed, UniProt e BioMed Central.

Os autores fizeram uso de metodologias de text mining/data mining que demandaram a criação de um componente de software, denominado Knowlet. Os Knowlets, segundo os autores, “combinam múltiplos atributos e valores para os relacionamentos entre conceitos” (tradução minha). Mais sobre isso no paper da Genome Biology.

Só pra constar, eu andei testando o WikiProteins com uns genes que o Lúcio me passou ;-) Esses genes parecem ser relacionados com nefropatia em pacientes diabéticos. Mais especificamente o gene PCSK1, que é uma proteína neuroendócrina. O WikiProteins me retornou uma série de informações relevantes e minha impressão é que o site promete.

Infelizmente ele não me retornou exatamente o que eu queria saber - e isso eu obtive com o bom e velho Gene Cards :

…susceptibility gene for non insulin dependent diabetes (type II) and…”

Bom, acho que agora é hora de promover o site e editar o Wiki… ;-)

PS: Ah, esse post foi de dica de um amigo, o Durfan

Biologia, Biotecnologia, Data Mining 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)

« Previous Entries