Doençômetro

O NYT colocou no ar um “doençômetro“, mapeando os diferentes tipo de doenças em forma de grafo colorido e interativo, bastante interessante. Isso tudo para ilustrar uma matéria que fala sobre um debate recente a respeito da definição do que é “doença”, buscando encontrar novas classificações e relações que possam melhorar a compreensão da ciência e, como um dos efeitos, buscar novos tratamentos e remédios.

Em outras palavras, se ao invés dos sintomas, os cientistas classificarem as doenças quanto a, por exemplo, alterações em trechos de uma determinada cadeia molecular, é possível que remédios usados para uma doença possam ser utilizados para outra que esteja relacionada.

O que procurar é mais fácil que saber onde procurar, algumas vezes…

Biologia, Data Mining, Usabilidade, Visualização Cientifica 2 Comentários

Recomendando música pela web

Uma amiga minha (duas na verdade. Carol@Washington e Adrianinha@Atlanta) me deu uma dica outro dia: “confere o pandora”. Pandora é um dos inúmeros sistemas de recomendação de músicas na web. Há várias formas de se recomendar música para as pessoas.

Os papers mais recentes que tentam fazer isso de forma automática e puramente computacional, citam o uso de algoritmos como SVM, Adaboost, Árvores de decisão, tendendo a obter melhores resultados com Adaboost, até onde me lembro.

Mas o fato é que recomendar música não é fácil, porque é difícil definir quais são as variáveis que levam uma pessoa a gostar de uma música, e qual a relação que vai levar aquela pessoa a gostar da próxima recomendação. Por isso, para a maioria das aplicações reais, ainda usamos o elemento humano para resolver o problema.

Prá quem não sabe, o Pandora tem um pool de vários especialistas (uns anos atrás, era algo em torno de 100 pessoas) que ficavam todos os dias triando e classificando manualmente um monte de músicas todos os dias. Nada escalável isso, mas certamente, de qualidade. Um processo bastante caro, mas pelo feedback do que se vê por aí, bastante eficiente também.

Os concorrentes? A Amazon, com seu filtro colaborativo (já falamos dele) e a Last.FM que usa um sistema de recomendação social a la redes sociais, tradicionalzão.

Pena que o Pandora só funciona para usuários rastreados em IPs dentros dos Estados Unidos…

Mas nem tudo está perdido.

O último que me chamou a atenção, eu não sei que método usa, mas inova mais na interface, simplesmente sensacional: o musicovery (dica da Rosi, que está se esbaldando na especialização dela em Design de Interação na IEC-MG). Pessoalmente, eu fiquei maravilhado com esse negócio.

E ele funciona para os brazucas. :-)

Data Mining, Usabilidade, Web 2.0 3 Comentários

Marketing científico

Já faz alguns anos, o Drucker já alertava para a interdisciplinaridade iminente.

Aí está o Kenji aqui pesquisando um pouco sobre Marketing Viral (não, eu não quero fazer vídeos engraçados no youtube, embora eu tenha até uma certa experiência com isso…) quando eu caio nos interessantes estudos da Dina Mayzlin, da Yale School of Management, que estuda o marketing WOM (word of mouth), no qual o marketing viral, tão celebrado hoje em dia, se enquadra, graças ao potencial da web de propagação rápida de…. errr… informação ;-) .

Já no primeiro paper, eu caio no estudos da moça sobre Autômatos Celulares, Classificadores de conversas (chat) em fóruns financeiros e economia experimental (como uma alternativa às abordagens econométricas tradicionais).

Eu tenho a impressão que o Omni (chamamos o Lúcio aqui no Labs de Omni por motivos históricos) já trabalhou com classificadores de chat uns anos atrás, nesta mesma linha, de detectar o sentimento em conversas. Depois tenho que bater um papo com ele sobre isso. Provavelmente já deve ter gente fazendo coisa parecida nos twitters da vida.

Classificadores são velhos conhecidos, a Biomind trabalha com classificadores como forma de encontrar possíveis genes relacionados a doenças como câncer desde quase a fundação da empresa.

Autômatos Celulares, (irony on) essa novidade da ciência moderna (irony off), remonta dos estudos de crescimentos em cristais de 1940.

E finalmente, a tal da economia experimental, da qual eu nunca tinha ouvido falar (casa de ferreiro espeto de pau, tenho dois doutores em economia na família, dos bons), parece ter surgido em 90, então imagino que seja terreno fértil para muita pesquisa ainda.

Então talvez haja diversão para gente como eu no Marketing ;-) .

Autômatos, Data Mining, Economia, Inteligência Artificial 0 Comentários

Analisando Dados “Misteriosos”

Naquele estranho (e meio nojento - tudo bem, muito nojento) filme de 1986 do Cronenberg, “A Mosca”, em algum momento a repórter interpretada pela Geena Davis pergunta ao cientista vivido pelo Jeff Goldblum como ele conseguiu construir um teleportador do nada no galpão dele. O cientista responde que na verdade ele não fez aquilo sozinho e nem do nada, ele contratava equipes de cientistas ao longo do globo pedindo coisas esquisitas do tipo “quero um analisador molecular obedecendo tais e tais especificações”, e aí uns meses depois lá chegava o analisador molecular. As equipes independentes de cientistas que resolviam esses sub-problemas e criavam esses componentes só enxergavam o que precisavam enxergar, não tinham noção de onde a solução que eles desenvolveram seria aplicada, e principalmente não tinham a menor idéia do projeto do teleportador que o personagem principal estava desenvolvendo.

No mundo real, longe das referências nerd envolvendo obras de ficção científica, devo dizer que nós aqui do Vetta Labs às vezes nos sentimos um pouco como os cientistas do filme que construíram o analisador molecular sabe-se lá para ser usado em que. Como diz o ditado, “o segredo é a alma do negócio”, e isso é particularmente aplicável quando o negócio envolve a análise de informações de outras empresas que querem ao mesmo tempo terceirizar serviços de mineração de dados e preservar o sigilo de seus contratos e seus clientes.

Pois bem, uns meses atrás, em mais um daqueles exemplos das maravilhas do outsourcing de pesquisa, fomos contratatos pela Novamente para analisar os dados de um terceiro cliente-cujo-nome-não-será-revelado, que como dá para suspeitar pela omissão do nome era justamente desses que preferem manter seus dados e planos envoltos em mistério. Recebemos uma base de dados composta por dezenas de milhares de tuplas, cada uma formada por um punhado de valores correspondendo a um pequeno conjunto de variáveis. O problema que nos foi colocado foi tentar prever uma das variáveis em especial com base nos valores de todas as outras, com uma taxa de acerto superior a um certo limite mínimo aceitável. A variável a ser predita era, para todos os fins práticos, lógica, do tipo “sim” ou “não”. As demais variáveis eram bem variadas, algumas claramente numéricas, outras também lógicas, e finalmente umas que talvez fossem numéricas ou talvez fossem simbólicas. O caso é que não tínhamos nem muita certeza do tipo de algumas das variáveis porque não nos foi dada qualquer informação sobre as mesmas. Os nomes de algumas variáveis até davam pistas do que elas deviam ser (mas não exatamente em que unidades elas estavam sendo medidas), porém outras variáveis tinham nomes herméticos que não ajudavam muito do ponto de vista da, digamos, semântica dos dados.

Assim, inventando uma base de dados parecida para fins de exemplificação, vamos supor que temos um conjunto aparentemente desprovido de sentido de quatro variáveis chamadas TUTU, PEDRA, CAVALO e CHUVA, e com base nelas temos de prever se o valor de uma quinta variável RESPOSTA é “sim” ou “não”. Existem dezenas de milhares de combinações-exemplo de valores de TUTU, PEDRA, CAVALO e CHUVA com valores conhecidos de RESPOSTA, e com base nelas devemos achar regras engraçadas como, digamos, “Se TUTU vale mais que 0.65, PEDRA tem valor ‘mole’ ou ‘redonda’, CAVALO pode ter qualquer valor e CHUVA vale ‘forte’, então RESPOSTA é ’sim’, caso contrário ‘não’”, regras essas capazes de prever RESPOSTA corretamente com uma acurácia maior que um mínimo estipulado pelo cliente.

Numa situação dessas, o bom minerador de dados deve se ater àquela máxima que acredita-se o filósofo-patrono das ciências exatas, o Pitágoras, soltou uns 25 séculos atrás: “Tudo são números”. É verdade que, como já exemplificamos várias vezes aqui no blog, quando mais informação você tem sobre uma base de dados, melhor, e às vezes é inclusive interessante usar outras bases de dados direta ou indiretamente relacionadas para “amplificar” a base objeto do seu estudo. Porém, nas situações em que não podemos (ou não devemos :) saber mais a respeito dos dados, o puro uso da lógica e da matemática podem ainda assim ser surpreendentemente efetivos.

Foi assim no caso dessa base de dados “misteriosa”. Devo dizer que criar uma abordagem capaz de passar do limite de acurácia mínimo pedido pelo cliente foi bem… desafiador, talvez inclusive devido ao desconhecimento da semântica dos dados. Mas, no final, chegamos a uma método bem robusto capaz de resolver até nossas dúvidas sobre o tipo exato de algumas variáveis. Nessa metodologia (da qual falarei apenas por alto para não “falar demais” :), desenvolvemos uma maneira de medir a “capacidade de predição” de uma variável quando assumia um dado valor (não importando se esse valor é um número, uma string, lógico, etc), e também para qual resposta (”sim” ou “não”) tendia esse dado valor de dada variável. No final, ao contrário do exemplo acima, nossas regras verificavam não os valores diretos das variáveis, mas sim a capacidade de predição dos valores que elas estavam assumindo na tupla em questão, e com base nisso decidiam se a tupla apontava para “sim” ou um “não”.

Conseguimos com essa abordagem ultrapassar (por pouco) a acurácia mínima pedida pelo cliente, inclusive em um segundo conjunto de tuplas completamente desconhecidas, seguindo o mesmo formato de dados, que o cliente nos forneceu para uma validação adicional. É possível que agora formalizemos um serviço de análise e desenvolvimento de mais longo prazo - e quem sabe até com um véu de mistério menos espesso. De qualquer forma, a lição que ficou foi: os números são seus amigos, não se desespere se eles são a única coisa ajudando você em seu trabalho de análise de dados. ;-)

Data Mining, Inovação, Inteligência Artificial 0 Comentários

Fusão de Dados e Longevidade

Certos fenômenos que muito interessam atualmente a Biologia têm causas difíceis de serem identificadas, e muito debate e hipóteses a respeito das mesmas. Um desses fenômenos é o aumento de longevidade associado com restrição calórica: é um fato bem conhecido há muitos anos que animais de várias espécies recebendo uma dieta mais pobre em calorias têm tendência a viver muito mais que outros com dieta normal. Dessa forma, há um grande interesse da Biologia, da Medicina e também (como não poderia deixar de ser) da indústria farmacêutica na causa ou causas desse fenômeno. Uma vez que as mesmas sejam identificadas, no melhor dos mundos talvez um “santo graal” já imaginado há um bom tempo seja alcançado: a produção de uma droga simulando os efeitos da restrição calórica - permitindo a uma pessoa ter uma dieta normal e ainda assim viver bem além da expectativa de vida atual. Seria algo que lembraria distantemente o lendário “elixir da vida eterna” - embora “elixir da vida longa” seja um nome mais apropriado, ainda que menos bombástico, nesse caso. :)

Uma das pesquisas realizada pelo Vetta Labs em parceria com a Biomind, foi aceita recentemente para publicação no renomado periódico científico Rejuvenation Research - talvez o mais importante da atualidade em matéria de pesquisa de longevidade - que de fato se ocupa do problema das causas dos efeitos de extensão de vida obtidos pela restrição calórica. Os resultados biológicos que conseguimos com essa pesquisa foram bastante interessantes, mas acho melhor deixar nosso biológo, o Maurício, escrever a respeito dessa parte e da restrição calórica em geral. Afinal, sou apenas um pobre computeiro que só tem uma vaga idéia do que são coisas como a “hipótese da hormesis”. :) Assim, vou me concentrar na nossa abordagem computacional para o estudo das bases de dados relacionadas com restrição calórica, abordagem essa que, modéstia à parte, foi bastante inovadora.

Conforme já mencionei, atualmente existem várias hipóteses concorrentes para explicar qual é o mecanismo central por trás da longevidade por restrição calórica. Ao mesmo tempo, são feitos vários experimentos com enfoques diferentes para se medir ou observar um ou outro aspecto da restrição calórica, e talvez testar um ou outro aspecto das várias teorias para a restrição calórica. Essa abordagem reducionista, porém, ao mesmo tempo que é uma força pode ser uma fraqueza: ao focar em detalhes do problema da restrição calórica, pode ficar bem difícil enxergar a “visão panorâmica” contendo os princípios universais que dão a solução definitiva para esse problema.

Assim, nossa abordagem foi um tanto quanto na contramão do que é feito - em vez de estudarmos uma ou outra base de dados isolada referente a um experimento preocupado com um ou outro aspecto da restrição calórica, integramos bases de dados produzidas por diversos experimentos diferentes - todos eles relacionados a restrição calórica - para daí tirarmos nossas conclusões.

Mais especificamente, lidamos com bases de dados de expressão genética em camundongos. Um mapa de expressão gênica, como o nome sugere, mostra o nível de atividade de um grande número de genes em um dado indivíduo. No caso das bases de dados utilizadas, alguns indivíduos haviam sido submetidos a restrição calórica, enquanto outros era os “controles”, recebendo uma dieta normal. Assim, explicando de um jeito “numérico”, cada base de dados dessas pode ser imaginada como uma planilha (ou matriz) onde as linhas estão associadas aos genes (tipicamente, milhares deles), as colunas estão associadas aos indivíduos (em geral poucos - frequentemente bases de dados de expressão gênica têm algo entre apenas dez e vinte indivíduos), e os números nas células da matriz dizem o quanto o gene X da linha estava expresso no indivíduo Y da coluna. Cada coluna tem ainda um rótulo indicando se o indivíduo correspondente é caso (sofreu restrição calórica) ou controle. As matrizes (bases de dados) que utilizamos foram feita a partir de condições experimentais diferentes, mas no fundo todas comparavam indivíduos com restrição calórica com controles: por exemplo as linhagens de camudongos usadas em uma dada matriz eram diferentes das usadas nas outras; em uma das matrizes, os indivíduos com restrição calórica incluíam camundongos velhos e jovens, enquanto que nas outras a idade era uma variável controlada; e assim por diante.

De novo explicando numericamente, o que nós fizemos foi fundir essas matrizes, e analisar a meta-base de dados daí resultante. Essa “fusão de dados” é bem trivial no caso das colunas - basta simplesmente incorporar todas as colunas de indivíduos de todas as matrizes na mesma matriz fundida. No caso das linhas, porém - isto é, na hora de fundir os genes vindos de base de dados diferentes - fazer a fusão de uma maneira que faça sentido biológica e numericamente está longe de ser elementar.

Uma das reações que a maioria das pessoas tem ao se deparar com um problema desses é pensar em escalar ou normalizar a expressão de um gene em cada base de dados individual, e então fundir as versões normalizadas, e não as contendo os números originais. Dando um exemplo disso usando um tipo de normalização bem simples, imagine que a expressão do gene X varie de 100 a 1000 unidades entre os indivíduos da matriz A, enquanto que nos indivíduos da matriz B varia de 8 a 80. Fazendo uma normalização linear, podemos então dizer que 100 unidades no dataset A mapeia para 0.0 em sua versão normalizada, e 1000 unidades mapeiam para 1.0, e escalamos todos os outros valores para o intervalo [0,1]. Fazendo a mesma coisa com a base de dados B (usando 8 como zero e 80 como 1.0 desta vez), no final temos duas matrizes onde todos os valores de expressão genética caem no intervalo [0,1], e assim a fusão das duas bases parece ser - numericamente ao menos - compatível.

O problema, com alguns já devem ter visto pelos próprios números propositalmente discrepantes usados no exemplo, é que biologicamente isso faz muito pouco sentido. No exemplo a expressão do gene X no dataset A pode ser mais de uma ordem de magnitude maior que no dataset B. Assim, embora a “miraculosa” transformação numérica passe todos os valores para a mesma faixa, o que nós estamos fazendo na prática é usar um gene X que se comporta de forma completamente diferente em dois datasets que tratam do mesmo fenômeno, a restrição calórica. Malabarismos numéricos à parte, isso parece mais um indicador de que o gene X *não é* la muito relacionado com a restrição calórica.

Porém, fomos rigorosos (alguns diriam teimosos :) e decidimos dar a essa abordagem o benefício da dúvida. O interessante na abordagem de aprendizagem de máquina usada pela Biomind e Vetta Labs é que podemos validar essas transformações de dados simplesmente gerando modelos de classificação em cima dos dados transformados, e então observando a qualidade dos resultados de classificação assim obtidos. Em termos bem simples, e restringindo a explicação ao presente caso, um modelo de classificação (ou simplesmente modelo) é uma função lógico-matemática, “descoberta” automaticamente por um método de aprendizagem de máquina, capaz de dizer se um indivíduo é controle ou com restrição calórica, com base em sua expressão gênica. No caso desta pesquisa, o método de aprendizagem usado foi Programação Genética - “evolução” de programas inspirada em princípios Darwinianos. Os programas em si eram bem limitados, na verdade expressões lógicas do tipo “se o gene X tem expressão maior que 0.5 e o gene Y tem expressão menor que 0.2, então o indivíduo tem restrição calórica, senão é controle”, para dar um exemplo simples. Pois bem, aplicando esse processo em bases de dados fundidas por meio de normalização (como exemplicado acima), os modelos alcançaram resultados bem ruins - os modelos acertavam o diagnóstico restrição calórica/controle apenas em 70% dos indivíduos.

O resultado bem melhor, próximo dos 91% de acerto, que efetivamente analisamos, foi obtido com uma abordagem bem diferente, que ao mesmo tempo faz sentido numérica e biologicamente. Nesta abordagem, em vez de forçarmos todos os genes a se conformarem em faixas de valores compatíveis, propositalmente deixamos de usar todos os genes, selecionando apenas aqueles genes cujas faixas de variação de nível de expressão são parecidas nas duas (ou mais) bases de dados sendo integradas. Criamos uma simples medida de “sobreposição” (baseada na média e desvio padrão expressões de um gene em um dataset e em outro) para escolher apenas aqueles genes com faixas de valores mais sobrepostas nas duas ou mais bases de dados em fusão. (Exemplo numérico: suponha um gene X com média de expressão 100 e desvio padrão 10 na matriz A, e média 105 e desvio 15 na matriz B. Isso daria uma sobreposição de cerca de 0.67 para X em A e B, e o gene passaria no limiar de 0.5 usado para a seleção, indo para a matriz fundida final.) Biologicamente falando, se esses genes naturalmente se comportam de forma numérica parecida em bases de dados de restrição calórica diferentes, as chances parecem ser de que os mesmos são intrinsecamente relacionados ao problema da restrição calórica…

Fundimos três bases de dados diferentes - e mais tarde quatro - usando esse método. Na fusão tripla diminuímos o conjunto inicial de mais de oito mil genes para pouco mais de 500; na fusão quádrupla, conseguimos uma lista de genes muito parecida (apenas ligeiramente menor) com a da fusão tripla, indicando que o nosso método realmente estava convergindo para um conjunto de genes particularmente estáveis, robustos, no que diz respeito ao seu comportamento em estudos de restrição calórica.

As matrizes fundidas produzidas por essa abordagem passaram por toda a “linha de montagem” de análises do OpenBiomind, o software aberto para análises de dados de bioinformática desenvolvido pelo Vetta Labs e Biomind. Assim, pudemos gerar modelos de classificação (que conforme já dito acertavam o diagnóstico em mais de 90% dos casos), analisar esses modelos em busca dos genes mais importantes para a classificação, e finalmente montar redes de múltiplas relações entre os genes - mostrando importância de genes, co-ocorrência de genes nos mesmos modelos, co-expressão dos genes nos mesmos indivíduos, etc - que permitiram fechar o cerco em torno dos mecanismos da restrição calórica. Mas aqui, como eu já disse, acho que o Maurício é a pessoa indicada para falar com mais propriedade do que nosso estudo concluiu a respeito dessas redes de relações.

Este estudo de fato representa no campo de aplicação particular da Bioinformática uma lição “a união faz a força” que é recorrente em estudos de mineração de dados: às vezes, integrando múltiplas fontes de dados heterogêneas e indiretamente relacionadas (mesmo que essa integração não seja nem óbvia e nem simples), seus resultados são bem melhores, e lançam muito mais luz sobre o problema em questão, que visões “míopes” focando em um ou outro aspecto do mesmo…

Biotecnologia, Data Mining, Inovação, Inteligência Artificial 4 Comentários

Visão das empresas brasileiras

Li uma notícia no site da Época Negócios sobre uma empresa de tecnologia chamada SAS (www.sas.com) localizada nos Estados Unidos, no estado da Carolina do Norte. A notícia apresenta a empresa como um excelente local para trabalhar. Ela está instalada não em grandes prédios de áreas centrais, mas em um enorme campus cercado de área verde e que possui piscina semi-olímpica, campos de golfe, futebol, beisebol, dentre outros. A jornada de trabalho dos funcionários é de 35 horas semanais, a menor da área de tecnologia. Além disso, eles possuem regalias como restaurantes, serviços de cabelereiro, tratamento de pele, facilidades para as mães, etc. A SAS está desde 1998 na lista das melhores empresas para se trabalhar. Diz a reportagem que os executivos do Google buscaram lá as idéias para a criação dos
seus fomosos escritórios.

Porém esse post não é sobre o ambiente de trabalho da empresa, mas sim sobre o que ela faz e os seus resultados. A SAS desenvolve software de business inteligence, que na minha opinião, de uma maneira simplória, é a aplicação de técnicas de mineração de dados e aprendizado de máquinas em bases de dados empresarias. O objetivo do software pode ser o mais variado, como por exemplo a categorização de pessoas com potencial de inadimplência (adotado por empresas de cartão de crédito) e a avaliação do risco assumido ao se vender um seguro (adotado por seguradoras).

O que mais me impressionou na notícia é que a SAS é a maior empresa privada de software do mundo, possuindo mais de 40 mil clientes. Ela faturou 2.1 bilhões de dólares em 2007. Fiquei impressionado não com a SAS, mas com a visão dos seus milhares de clientes que adotam softwares de business inteligence para buscar melhores resultados. Me lembro de uma aula do mini MBA que tivemos aqui na Vetta e o André disse que, no Brasil, muitos contratos de software não são fechados pois as empresas possuem um orçamento limitado e não consideram o software como prioridade. Isso considerando software em geral. Imagine então uma aplicação de business inteligence…….

Bom, a idéia que eu queria deixar nesse post é que acho importante uma mudança na mentalidade das empresas brasileiras. Muitas delas precisam perceber que software é investimento que trará resultados, e não despesa. Acho que falta uma visão mais inovadora das empresas. Posso estar errado, mas é o que percebo…..

Data Mining, Inovação 0 Comentários

Aprendizado de máquina nas nuvens

Uma hora, todo mundo sabia que iria acontecer. Os algoritmos de aprendizado de máquina (machine learning) encontrariam um modelo de escalabilidade massiva (hadoop, o mesmo que o yahoo anda namorando para competir com o google) e se encontrariam num interessantíssimo novo projeto cultivado pela Apache Foundation chamado Mahout.

Este belo e promissor projeto pretende implementar cerca de 10 algoritmos descritos neste paper de Stanford incluindo K-Means, SVM, PCA e etc, numa “nuvem” de computadores, permitindo lidar com um alto grau de paralelismo e lidando com dados BEM grandes.

Não tem nada pronto ainda… na verdade o projeto ainda está começando, mas promete.

Para os curiosos interessados em acompanhar este projeto mais de perto, fiquem de olho nos blogs de Sean Owen, Jeff Eastman e no blog do Apache Lucene, mantido pelo Grant Ingersoll.

Curiosidade: Mahout é o cara que pilota um elefante, enquanto Hadoop é o nome do elefantinho de pelúcia do filho do Doug Cutting, criador do projeto. Que por sinal, hoje trabalha no Yahoo. Nada como uma concorrência saudável. ;-)

Data Mining, Inteligência Artificial, Paralelismo 0 Comentários

Todos adoram diagramas

E todos adoram saber quem está relacionado com quem. É por isso que este site tem uma demo tão divertida

http://www.touchgraph.com/TGGoogleBrowser.html

É claro que a primeira coisa que eu procurei foi pelo meu blog pessoal ;-) afinal, eu quero saber quem fala mal ou bem de mim…

Esta generosa demo abre um applet JAVA (fora de moda, mas dá o recado) que deixa você pesquisar quais sites estão relacionados a uma determinada palavra ou expressão, mostrando pequenos agrupamentos de links coloridos. Experimente.

Ou seja, o ganha-pão da Touchgraph é fornecer visualização para redes. Eles oferecem versões customizadas para o facebook e para a amazon. Nada mal. Afinal, com o crescimento da internet, nossa tão querida rede, o que mais tem se proliferado ultimamente são justamente outras redes. E todas precisam ser visualizadas de alguma forma. E visualização também é a chave para ver, rapidamente, padrões nos seus dados.

Porque clusterizar não basta. Você tem que visualizar também. E às vezes, visualizar dá muito mais trabalho que clusterizar.

Data Mining, Visualização Cientifica 0 Comentários

SNPs, Haplótipos e a promessa de remédios melhores

Todos os dias, nos jornais, ouvimos notícias que a ciência progride e que isso nos traz a cura para novas doenças, ou tratamentos mais eficientes, ou mais qualidade de vida, etc.

A computação também tem sua parcela neste esforço. Os problemas que a Biologia busca resolver leva a computação aos seus limites (especialmente em termos de memória e de bancos de dados), porque nosso entendimento dos mecanismos que sustentam a vida ainda não estão completamente compreendidos, e mesmo o que está compreendido apresenta uma complexidade tamanha que alimenta mais e mais os pesquisadores de dúvidas, e assim caminha a ciência.

Aqui no Labs, temos um pequeno, porém dedicado time, de pessoas trabalhando para a Biomind LLC. Nosso trabalho aqui é tentar usar nossa expertise computacional na resolução de problemas de biotecnologia.

Um desses problemas está relacionado com os chamados SNPs, e os biólogos por favor nos perdoem por todas as simplificações a seguir, que serão feitas em detrimento do entendimento de leigos, que imagino, sejam a maioria dos leitores aqui.

Sequências no DNA das pessoas, às vezes diferem por pequenos pedaços. Quando essa diferença ocorre em 1 nucleotídeo, dizemos que é uma Single Nucleotide Polymorphism, ou SNP. Essa diferença acontece em diferentes proporções para diferentes populações, e os cientistas estimam que o homem tenha em torno de 10 milhões de SNPs.

O problema, claro, é que o SNP sozinho não diz muito, então o que os cientistas procuram, geralmente, são vários SNPs ao longo do DNA. Supondo que para cada SNP, haja uma variação de 2 nucleotídeos (pode ser A ou G por exemplo) e que o cientista esteja estudando 3 SNPs, você tem 2 x 2 x 2 = 8 possibilidades de variações de DNA. Cada combinação é um haplótipo.

Na prática, nem sempre alguns desses haplótipos se manifestam na natureza, então digamos que das 8 possibilidades, apenas 4 sejam presentes na nossa população. Lembrando, claro, que cada pessoa tem 2 haplótipos: um herdado da mãe e outro do pai (e mesmo assim, vc ainda pode ter dois haplótipos iguais, um do seu pai e outro da sua mãe)

O que identifica cada pessoa, em termos de SNPs, é este par de haplótipos, que chamamos de Profile.

Vamos supor agora que uma determinada droga, digamos, viagra [obviamente, um truque sujo para as pessoas caírem aqui via google], funciona muito bem para pessoas que possuem profile tipo A, não funcione para pessoas que possuem profile do tipo B e cause impotência nas pessoas do tipo C (tadinhos!).

Bem, vamos todos concordar que as pessoas seriam mais felizes se as pessoas do tipo B e C não tivessem que descobrir, por tentativa e erro (como é feito hoje) que viagra não é bom para elas.

Então é nisso que trabalhamos: para ajudar a vida íntima das pessoas… bem, não só isso. Você pode estender isso para uma gama muito grande de medicamentos, então no resto da vida das pessoas também. Nos estudos sobre câncer, sobre envelhecimento, toxicidade de medicamentos, etc.

Em poucas palavras: remédios mais adequados às características determinadas pela sua herança genética.

Claro que a Biomind também tem pesquisas muito interessantes em outras áreas também, e biotecnologia por si só já é uma área prá lá de interessante, que influencia a vida de todos, portanto, aguardem mais posts sobre este assunto aqui.

Biotecnologia, Data Mining 0 Comentários

A greve da UPS

Data Mining ou Mineração de Dados é o conjunto de técnicas analíticas, estatísticas, matemáticas e et cetera disponíveis para extrair informação útil a partir de dados. Obviamente, isso não acontece magicamente e é preciso gastar um bom tempo analisando os dados, entendendo o problema e os resultados. Ou pior ainda: você vai precisar de gente com feeling prá coisa, com experiência, e isso você não consegue da noite pro dia. Aliás, não consegue de um ano pro outro também não.

Existe uma infinidade de usos para estas técnicas, algumas muito bem conhecidas (vamos sempre falar delas aqui), mas de vez em quando aparecem algumas idéias de como usar estas técnicas que, no mínimo, são curiosas ou espertamente oportunistas (no bom sentido).

Em 1997, a UPS, uma das maiores empresas de entregas do mundo, entrou em greve por 15 dias. Isso significou para a rival, a FedEx (Federal Express), um aumento instantâneo de 800.000 entregas por dia.

Nada como uma boa oportunidade

- A FedEx identificou imediatamente quem eram os clientes NOVOS e ofereceram promoções para todos eles. [óbvio]

- Com estes dados, a FedEx também ganhou, de lambuja, informação importante sobre o market share deles minerando os padrões de entrega de encomendas durante a greve. [menos óbvio]

Será que as empresas lembram dessas coisas quando o concorrente entra em greve? Ou ele deixa passar essa oportunidade, ocupado demais comemorando as vendas extras no período? ;-)

“A sorte favorece a mente preparada” (Louis Pasteur)

Data Mining 1 Comentário

« Previous Entries Next Entries »