Uma visão não convencional da restrição calórica

Recentemente, o time da Biomind do Vetta Labs resolveu estudar os efeitos da RC em camundongos usando experimentos de microarray públicos e técnicas de aprendizado de máquina. Esses resultados geraram um paper, aceito para publicação na mais famosa revista relacionada ao estudo de longevidade e envelhecimento, a Rejuvenation Research. Nesse post vou dar uma visão geral sobre a parte biológica da coisa e falar um pouquinho dos resultados que obtivemos – mais detalhes quando o paper sair definitivamente do forno ;-)

Apesar de todas as especulações, até hoje a única ferramenta cientificamente comprovada contra o envelhecimento é a restrição calórica (RC). Bom, tem também o resveratrol, um composto polifenólico extraído da casca das uvas, mas isso já foi assunto de outro post.

A restrição calórica possui, muitas vezes, o poder de até dobrar a vida de camundongos de laboratório, dentre outros animais. A única coisa a ser feita é diminuir em 30% as calorias ingeridas pelos animais, sem, é claro, privá-los dos nutrientes fisiologicamente necessários para que mantenham uma vida saudável - mas com fome.

Os efeitos e o mecanismo fisiológico e molecular de ação da RC em animais vêm sendo estudados a fundo nos últimos anos e muitas teorias foram criadas a respeito de seu funcionamento. Dentre elas, vou descrever algumas:

  • teoria dos radicais livres: quanto mais se come, mais radicais livres serão gerados pelas mitocôndrias e maior será o dano oxidativo e celular, levando à senescência. As mitocôndrias são grandes vilãs do envelhecimento – já dizia Aubrey de Grey!
  • teoria do desenvolvimento: alguns genes, que são responsáveis por um rápido desenvolvimento dos organismos (para que alcancem logo o estágio reprodutivo), são também responsáveis pelo envelhecimento rápido. Acredita-se que esses genes devem ser desativados com a RC - não há comida suficiente para alimentar uma futura prole, então é melhor esperar um pouco - e dessa forma o envelhecimento também é prorrogado ;-)
  • teoria da hormesis – pequenos estresses devem gerar uma mudança nas prioridades dos organismos. A RC, tida como um pequeno estresse, faria com que o organismos priorizassem o combate aos danos oxidativos e o reparo de DNA, ao invés de gastar energia com desenvolvimento e reprodução. Essa mudança de prioridade deve retardar o envelhecimento. Testes já estão sendo feitos com drogas que causam pequenos estresses nos organismos para se conseguir mimetizar o efeito da RC.

Uma maneira de se estudar o efeito da RC é verificando quais genes estão sendo mais ativados ou mais desativados em organismos sob RC, em comparação com organismos em dieta normal e tentar entender por que isso acontece.

Os microarrays são ferramentas excelentes pra esse tipo de tarefa e o pessoal da Biomind do Vetta Labs é especialista em analisar esse tipo de dados, porém de uma maneira não convencional, usando a técnica de aprendizado de máquina (machine learning). Mais detalhes sobre a técnica no post do Omni.

Os resultados obtidos concordam com a hipótese de que os efeitos da RC na longevidade é um processo multifatorial., provavelmente centrado no estresse oxidativo causado pelo funcionamento da mitocôndria, ligado ao reparo de DNA e com uma conexão com a teoria do desenvolvimento (encontramos alguns genes importantes ao efeito da RC ligados às ciclinas, que são relacionadas ao ciclo celular e desenvolvimento). Também encontramos ligações entre genes que ligam as teorias da hormesis e dos radicais livres.

Com isso mostramos que uma tecnologia de aprendizado de máquina pode servir como um amplificador, mostrando relações biológicas que não são claramente perceptíveis nesses dados por técnicas convencionais.

Bom, para os mais curiosos, assim que o paper for publicado colocaremos o link aqui ;-)

Biotecnologia, Inovação 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Post-its eletrônicos usando… post-its!

Existem trocentas aplicações que tentam criar post-its virtuais no desktop do seu computador. Nunca vi uma que funcionasse direito. Um pessoal do MIT resolveu que a melhor maneira de criar post-its eletrônicos é usando… post-its de papel! O projeto Quickies usa canetas digitais, RFID e inteligência artificial para transformar post-its de papel em arquivos digitais, com busca, tags, e outras funcionalidades bacanas, tipo reconhecer quando uma nota é sobre um compromisso e mandar uma mensagem por email ou SMS para lembrá-lo na hora certa. Muito bacana!

Inovação, Inteligência Artificial 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Fusão de Dados e Longevidade

Certos fenômenos que muito interessam atualmente a Biologia têm causas difíceis de serem identificadas, e muito debate e hipóteses a respeito das mesmas. Um desses fenômenos é o aumento de longevidade associado com restrição calórica: é um fato bem conhecido há muitos anos que animais de várias espécies recebendo uma dieta mais pobre em calorias têm tendência a viver muito mais que outros com dieta normal. Dessa forma, há um grande interesse da Biologia, da Medicina e também (como não poderia deixar de ser) da indústria farmacêutica na causa ou causas desse fenômeno. Uma vez que as mesmas sejam identificadas, no melhor dos mundos talvez um “santo graal” já imaginado há um bom tempo seja alcançado: a produção de uma droga simulando os efeitos da restrição calórica - permitindo a uma pessoa ter uma dieta normal e ainda assim viver bem além da expectativa de vida atual. Seria algo que lembraria distantemente o lendário “elixir da vida eterna” - embora “elixir da vida longa” seja um nome mais apropriado, ainda que menos bombástico, nesse caso. :)

Uma das pesquisas realizada pelo Vetta Labs em parceria com a Biomind, foi aceita recentemente para publicação no renomado periódico científico Rejuvenation Research - talvez o mais importante da atualidade em matéria de pesquisa de longevidade - que de fato se ocupa do problema das causas dos efeitos de extensão de vida obtidos pela restrição calórica. Os resultados biológicos que conseguimos com essa pesquisa foram bastante interessantes, mas acho melhor deixar nosso biológo, o Maurício, escrever a respeito dessa parte e da restrição calórica em geral. Afinal, sou apenas um pobre computeiro que só tem uma vaga idéia do que são coisas como a “hipótese da hormesis”. :) Assim, vou me concentrar na nossa abordagem computacional para o estudo das bases de dados relacionadas com restrição calórica, abordagem essa que, modéstia à parte, foi bastante inovadora.

Conforme já mencionei, atualmente existem várias hipóteses concorrentes para explicar qual é o mecanismo central por trás da longevidade por restrição calórica. Ao mesmo tempo, são feitos vários experimentos com enfoques diferentes para se medir ou observar um ou outro aspecto da restrição calórica, e talvez testar um ou outro aspecto das várias teorias para a restrição calórica. Essa abordagem reducionista, porém, ao mesmo tempo que é uma força pode ser uma fraqueza: ao focar em detalhes do problema da restrição calórica, pode ficar bem difícil enxergar a “visão panorâmica” contendo os princípios universais que dão a solução definitiva para esse problema.

Assim, nossa abordagem foi um tanto quanto na contramão do que é feito - em vez de estudarmos uma ou outra base de dados isolada referente a um experimento preocupado com um ou outro aspecto da restrição calórica, integramos bases de dados produzidas por diversos experimentos diferentes - todos eles relacionados a restrição calórica - para daí tirarmos nossas conclusões.

Mais especificamente, lidamos com bases de dados de expressão genética em camundongos. Um mapa de expressão gênica, como o nome sugere, mostra o nível de atividade de um grande número de genes em um dado indivíduo. No caso das bases de dados utilizadas, alguns indivíduos haviam sido submetidos a restrição calórica, enquanto outros era os “controles”, recebendo uma dieta normal. Assim, explicando de um jeito “numérico”, cada base de dados dessas pode ser imaginada como uma planilha (ou matriz) onde as linhas estão associadas aos genes (tipicamente, milhares deles), as colunas estão associadas aos indivíduos (em geral poucos - frequentemente bases de dados de expressão gênica têm algo entre apenas dez e vinte indivíduos), e os números nas células da matriz dizem o quanto o gene X da linha estava expresso no indivíduo Y da coluna. Cada coluna tem ainda um rótulo indicando se o indivíduo correspondente é caso (sofreu restrição calórica) ou controle. As matrizes (bases de dados) que utilizamos foram feita a partir de condições experimentais diferentes, mas no fundo todas comparavam indivíduos com restrição calórica com controles: por exemplo as linhagens de camudongos usadas em uma dada matriz eram diferentes das usadas nas outras; em uma das matrizes, os indivíduos com restrição calórica incluíam camundongos velhos e jovens, enquanto que nas outras a idade era uma variável controlada; e assim por diante.

De novo explicando numericamente, o que nós fizemos foi fundir essas matrizes, e analisar a meta-base de dados daí resultante. Essa “fusão de dados” é bem trivial no caso das colunas - basta simplesmente incorporar todas as colunas de indivíduos de todas as matrizes na mesma matriz fundida. No caso das linhas, porém - isto é, na hora de fundir os genes vindos de base de dados diferentes - fazer a fusão de uma maneira que faça sentido biológica e numericamente está longe de ser elementar.

Uma das reações que a maioria das pessoas tem ao se deparar com um problema desses é pensar em escalar ou normalizar a expressão de um gene em cada base de dados individual, e então fundir as versões normalizadas, e não as contendo os números originais. Dando um exemplo disso usando um tipo de normalização bem simples, imagine que a expressão do gene X varie de 100 a 1000 unidades entre os indivíduos da matriz A, enquanto que nos indivíduos da matriz B varia de 8 a 80. Fazendo uma normalização linear, podemos então dizer que 100 unidades no dataset A mapeia para 0.0 em sua versão normalizada, e 1000 unidades mapeiam para 1.0, e escalamos todos os outros valores para o intervalo [0,1]. Fazendo a mesma coisa com a base de dados B (usando 8 como zero e 80 como 1.0 desta vez), no final temos duas matrizes onde todos os valores de expressão genética caem no intervalo [0,1], e assim a fusão das duas bases parece ser - numericamente ao menos - compatível.

O problema, com alguns já devem ter visto pelos próprios números propositalmente discrepantes usados no exemplo, é que biologicamente isso faz muito pouco sentido. No exemplo a expressão do gene X no dataset A pode ser mais de uma ordem de magnitude maior que no dataset B. Assim, embora a “miraculosa” transformação numérica passe todos os valores para a mesma faixa, o que nós estamos fazendo na prática é usar um gene X que se comporta de forma completamente diferente em dois datasets que tratam do mesmo fenômeno, a restrição calórica. Malabarismos numéricos à parte, isso parece mais um indicador de que o gene X *não é* la muito relacionado com a restrição calórica.

Porém, fomos rigorosos (alguns diriam teimosos :) e decidimos dar a essa abordagem o benefício da dúvida. O interessante na abordagem de aprendizagem de máquina usada pela Biomind e Vetta Labs é que podemos validar essas transformações de dados simplesmente gerando modelos de classificação em cima dos dados transformados, e então observando a qualidade dos resultados de classificação assim obtidos. Em termos bem simples, e restringindo a explicação ao presente caso, um modelo de classificação (ou simplesmente modelo) é uma função lógico-matemática, “descoberta” automaticamente por um método de aprendizagem de máquina, capaz de dizer se um indivíduo é controle ou com restrição calórica, com base em sua expressão gênica. No caso desta pesquisa, o método de aprendizagem usado foi Programação Genética - “evolução” de programas inspirada em princípios Darwinianos. Os programas em si eram bem limitados, na verdade expressões lógicas do tipo “se o gene X tem expressão maior que 0.5 e o gene Y tem expressão menor que 0.2, então o indivíduo tem restrição calórica, senão é controle”, para dar um exemplo simples. Pois bem, aplicando esse processo em bases de dados fundidas por meio de normalização (como exemplicado acima), os modelos alcançaram resultados bem ruins - os modelos acertavam o diagnóstico restrição calórica/controle apenas em 70% dos indivíduos.

O resultado bem melhor, próximo dos 91% de acerto, que efetivamente analisamos, foi obtido com uma abordagem bem diferente, que ao mesmo tempo faz sentido numérica e biologicamente. Nesta abordagem, em vez de forçarmos todos os genes a se conformarem em faixas de valores compatíveis, propositalmente deixamos de usar todos os genes, selecionando apenas aqueles genes cujas faixas de variação de nível de expressão são parecidas nas duas (ou mais) bases de dados sendo integradas. Criamos uma simples medida de “sobreposição” (baseada na média e desvio padrão expressões de um gene em um dataset e em outro) para escolher apenas aqueles genes com faixas de valores mais sobrepostas nas duas ou mais bases de dados em fusão. (Exemplo numérico: suponha um gene X com média de expressão 100 e desvio padrão 10 na matriz A, e média 105 e desvio 15 na matriz B. Isso daria uma sobreposição de cerca de 0.67 para X em A e B, e o gene passaria no limiar de 0.5 usado para a seleção, indo para a matriz fundida final.) Biologicamente falando, se esses genes naturalmente se comportam de forma numérica parecida em bases de dados de restrição calórica diferentes, as chances parecem ser de que os mesmos são intrinsecamente relacionados ao problema da restrição calórica…

Fundimos três bases de dados diferentes - e mais tarde quatro - usando esse método. Na fusão tripla diminuímos o conjunto inicial de mais de oito mil genes para pouco mais de 500; na fusão quádrupla, conseguimos uma lista de genes muito parecida (apenas ligeiramente menor) com a da fusão tripla, indicando que o nosso método realmente estava convergindo para um conjunto de genes particularmente estáveis, robustos, no que diz respeito ao seu comportamento em estudos de restrição calórica.

As matrizes fundidas produzidas por essa abordagem passaram por toda a “linha de montagem” de análises do OpenBiomind, o software aberto para análises de dados de bioinformática desenvolvido pelo Vetta Labs e Biomind. Assim, pudemos gerar modelos de classificação (que conforme já dito acertavam o diagnóstico em mais de 90% dos casos), analisar esses modelos em busca dos genes mais importantes para a classificação, e finalmente montar redes de múltiplas relações entre os genes - mostrando importância de genes, co-ocorrência de genes nos mesmos modelos, co-expressão dos genes nos mesmos indivíduos, etc - que permitiram fechar o cerco em torno dos mecanismos da restrição calórica. Mas aqui, como eu já disse, acho que o Maurício é a pessoa indicada para falar com mais propriedade do que nosso estudo concluiu a respeito dessas redes de relações.

Este estudo de fato representa no campo de aplicação particular da Bioinformática uma lição “a união faz a força” que é recorrente em estudos de mineração de dados: às vezes, integrando múltiplas fontes de dados heterogêneas e indiretamente relacionadas (mesmo que essa integração não seja nem óbvia e nem simples), seus resultados são bem melhores, e lançam muito mais luz sobre o problema em questão, que visões “míopes” focando em um ou outro aspecto do mesmo…

Biotecnologia, Data Mining, Inovação, Inteligência Artificial 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Visão das empresas brasileiras

Li uma notícia no site da Época Negócios sobre uma empresa de tecnologia chamada SAS (www.sas.com) localizada nos Estados Unidos, no estado da Carolina do Norte. A notícia apresenta a empresa como um excelente local para trabalhar. Ela está instalada não em grandes prédios de áreas centrais, mas em um enorme campus cercado de área verde e que possui piscina semi-olímpica, campos de golfe, futebol, beisebol, dentre outros. A jornada de trabalho dos funcionários é de 35 horas semanais, a menor da área de tecnologia. Além disso, eles possuem regalias como restaurantes, serviços de cabelereiro, tratamento de pele, facilidades para as mães, etc. A SAS está desde 1998 na lista das melhores empresas para se trabalhar. Diz a reportagem que os executivos do Google buscaram lá as idéias para a criação dos
seus fomosos escritórios.

Porém esse post não é sobre o ambiente de trabalho da empresa, mas sim sobre o que ela faz e os seus resultados. A SAS desenvolve software de business inteligence, que na minha opinião, de uma maneira simplória, é a aplicação de técnicas de mineração de dados e aprendizado de máquinas em bases de dados empresarias. O objetivo do software pode ser o mais variado, como por exemplo a categorização de pessoas com potencial de inadimplência (adotado por empresas de cartão de crédito) e a avaliação do risco assumido ao se vender um seguro (adotado por seguradoras).

O que mais me impressionou na notícia é que a SAS é a maior empresa privada de software do mundo, possuindo mais de 40 mil clientes. Ela faturou 2.1 bilhões de dólares em 2007. Fiquei impressionado não com a SAS, mas com a visão dos seus milhares de clientes que adotam softwares de business inteligence para buscar melhores resultados. Me lembro de uma aula do mini MBA que tivemos aqui na Vetta e o André disse que, no Brasil, muitos contratos de software não são fechados pois as empresas possuem um orçamento limitado e não consideram o software como prioridade. Isso considerando software em geral. Imagine então uma aplicação de business inteligence…….

Bom, a idéia que eu queria deixar nesse post é que acho importante uma mudança na mentalidade das empresas brasileiras. Muitas delas precisam perceber que software é investimento que trará resultados, e não despesa. Acho que falta uma visão mais inovadora das empresas. Posso estar errado, mas é o que percebo…..

Data Mining, Inovação 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

O fenômeno Twitter

Twitter é a mais nova revolução da Web 2.0. Não tão nova assim em tempo de internet, mas explosiva do mesmo jeito. É uma combinação de rede social e micro-blogging.

Você pode escrever micro-posts (o limite é 140 caracteres). Seus amigos recebem seus posts e podem respondê-los. É altamente viciante (um motivo pelo qual optei por me abster). Você pode enviar posts pela interface web, por aplicações desktop, ou via SMS. A opção de postar pelo celular e o limite de tamanho dos posts encorajam uma comunicação frequente e espontânea, parecida com a de mensagens instantâneas como MSN e Google Talk.

Um diferencial é que seus posts também vão (se você permitir, claro) para uma grande linha do tempo pública. Quando os posts de todo mundo são agregados dessa forma, muitas vezes surge um Zeitgeist instantâneo: tópicos que dominam a atenção coletiva dos Twitters em um dado momento.

No bom espírito Web 2.0, o Twitter disponibiliza uma bela API. Essa API, combinada com a linha do tempo pública, levou a diversas aplicações divertidas. Por exemplo, o Twitterverse é uma tag cloud que mostra as palavras mais frequentes na linha do tempo na última hora. Já o TwitterBuzz mostra os sites mais linkados na linha do tempo. E tem usos mais especializados. O Politweets mede a popularidade dos pré-candidatos a presidente dos EUA com base no número de posts (também chamados de tweets). E os candidatos mais antenados com a internet usam o Twitter para enviar propaganda.

O Twitter também tem utilidade pública. Os bombeiros de Los Angeles começaram a usar o Twitter para postar alertas e coordenar atividades via celular no combate aos incêndios florestais de outubro do ano passado, e ainda usam o Twitter até hoje. Outra aplicação legal (essa eu quero aqui pro Brasil com urgência) é o Commuter Feed, que recebe mensagens de motoristas e posta informações em tempo real sobre o trânsito em diversas áreas metropolitanas dos EUA.

Ah, e o Twitter é escrito em Ruby on Rails ;-)

Desenvolvimento, Inovação, Mobile, Web 2.0 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Dinheiro público creditado para variar

Eu me lembro muito bem a extasiante sensação de ser aprovado no vestibular. Na época eu fui aprovado em duas escolas, uma privada e outra pública. As duas excelentes. As duas me agradavam na mesma proporção. Mas, curiosamente, a alegria de passar na segunda era maior. Na época eu achei que era porque a escola em questão era mais perto de onde morava minha família mas hoje eu sei que não se trata disso. Na verdade a diferença mesmo é que a escola pública é “de graça” (nem preciso explicar as aspas). Hoje eu entendo muito bem que “receber” dinheiro público ao invés de pagar é uma fonte de enorme satisfação pessoal!

Felizmente está cada vez mais viável conseguir dinheiro do governo para fazer coisas “interessantes”. O país tem evoluido de maneira louvável neste sentido e a legislação cada vez mais prevê mecanismos para alimentar constantemente o mercado com inovações tecnológicas. Por favor não venha com flames por eu estar defendendo o governo quando o sistema de ensino público sofre com orçamentos muito aquém do necessário e com regulamentações totalmente arbitrárias e eleitoreiras. Na verdade estou apenas elogiando a evolução da legislação brasileira no sentido de criar fundos, órgãos e mecanismos para fomentar a pesquisa direcionada a inovação tecnológica.

Os fundos setoriais são um bom exemplo do que estou falando. Empresas
como as grandes distribuidoras de energia elétrica, por exemplo, são obrigadas a destinar parte do seu faturamento a fundos cujos recursos são utilizados por órgãos como a FINEP para fomentar projetos de inovação tecnológica na área.

Outras iniciativas mais recentes dizem respeito a criação entidades (nas diversas esferas da administração pública) cujo fim é especificamente gerir processos de inovação tecnológica nos mais variados setores da economia. Esse tipo de entidade é, na minha opinião, a grande peça-chave que faltava para que o ciclo de inovação contínua se fechasse e garantisse o gradual avanço tecnológico do país nas mais variadas áreas. Até então tínhamos excelentes escolas e centros de pesquisa, fontes de financiamento (agências como o CNPq, FINEP, FAPEMIG etc) com recursos garantidos pela legislação vigente e todo o suporte legal para o incentivo a projetos de inovação tecnológica mas não tínhamos o essencial: entidades cuja operação consistisse em juntar todas essas peças e facilitar a vida de uma empresa ou de um pesquisador que quisesse criar um produto inovador e lançá-lo no mercado. Uma espécie de SEBRAE voltado para empresas de base tecnológica.

Isso ainda é incipiente mas a evolução é visível. O Governo de Minas Gerais, por exemplo, criou cinco pólos de excelência no Estado, com o objetivo de coordenar e orientar o desenvolvimento econômico das regiões conforme a vocação de cada uma. Eles estão reunindo todas as informações sobre os segmentos da economia em que Minas Gerais detém tradição e expertise. Já estão em funcionamento o Pólo de Excelência do Leite, em Juiz de Fora; o Pólo de Excelência do Café, em Três Pontas; o Pólo de Excelência em Florestas, em Viçosa; e o pólo Mineral e Metalúrgico, no Vale do Aço. As atividades desses pólos de excelência ainda não estão totalmente formatadas mas a idéia é que eles sirvam de catalizadores em suas respectivas áreas de atuação, de maneira a aproximar o trabalho de produção científica do mercado. Para centralizar as atividades dos pólos ainda foi criado o Sistema Mineiro de Inovação que deve atuar como uma espécie de entidade de classe para empresas de base tecnológica que trabalham com inovação, compilando problemas comuns, provendo orientação sobre a legislação pertinente e a participação em editais públicos de subvenção econômica etc.

Quando todos esses processos estiverem maduros, será bem mais fácil você transformar aquela sua brilhante idéia inovadora em um produto disponível no mercado. Isso pode não ser tudo mas é essencial para que o país tenha uma economia competitiva e moderna.

Inovação 3 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Computação ciente de contexto

Quem não gostaria que seu celular automaticamente se programasse para despertar em um determinado horário, considerando a sua agenda do dia e outras variáveis como trânsito e clima? Ou que, ao chegar em casa, o som tocasse uma música de acordo com o seu humor? E que, ao viajar para algum lugar desconhecido com um simples PDA, todo o planejamento turístico fosse feito para você de acordo com seus desejos, preferências, sua quantidade de dinheiro para gastar, dentre outros aspectos, e que esse planejamento ainda fosse dinamicamente adaptado ao longo do dia de acordo com variáveis inesperadas detectadas no ambiente?

Essas aplicações citadas (e muitas outras que poderiam ser mencionadas) estão relacionadas a uma área de pesquisa chamada computação ciente do contexto, ou seja, hardware e software capazes de considerar qualquer informação que possa ser usada para caracterizar a situação de uma pessoa, lugar ou objeto, para prover informações e/ou serviços relevantes para usuários.

Essa área de pesquisa, apesar de não ser recente, ainda apresenta vários desafios técnicos.

Muitos trabalhos científicos da área lidam com a aquisição (ou sensoriamento) e modelagem de contextos físicos (localização, clima, tempo, por exemplo). Porém, ainda é pouco explorado na aquisição e interpretação de contextos lógicos. Por exemplo, como seria possível identificar que o usuário está de bom ou mau humor? Ou que ele está com fome? E que, quando ele está de bom humor, ele prefere escutar músicas de Jazz?

Estive pensando em como abordar o problema dos contextos lógicos e, relacionando com trabalhos desenvolvidos aqui no Labs, vejo que técnicas de aprendizado de máquina e processamento de linguagem natural seriam uma boa opção. Por exemplo, todos os diálogos do usuário poderiam ser categorizados e rankeados para que no final do dia seja possível identificar seu humor. Mais interessante ainda seria se, além do conteúdo dos diálogos, fosse identificado também o tom de voz. Assim uma discussão no trânsito seria percebida e ajudaria na identificação do humor.

Além da questão de identificação de contextos lógicos, pode-se considerar que a automatização de tarefas cientes de contexto é uma tendência forte de pesquisa na área. Dessa forma, haverá uma grande necessidade de se desenvolver técnicas ligadas a inteligência artificial para diversos aspectos dessa área em geral.

Enquanto essas soluções não viram aplicações para usuários finais, continuamos imaginando como seria mais fácil a vida se nossos dispositivos computacionais fossem cientes do nosso ambiente…

Inovação, Mobile 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Clusters, recomendações e a NetFlix

Nos comentários do post do Kenji sobre clusterização, a Adriana mencionou o desafio da NetFlix. Eu acho que merece o seu próprio post.

A NetFlix é uma locadora virtual de DVDs, de enorme sucesso nos EUA. Você se associa, escolhe quais filmes gostaria de ver e põe numa fila. A NetFlix manda os filmes pelo correio à medida que estão disponíveis, com envelope pago para você devolvê-los. Em um plano comum, você pode alugar até 3 DVDs de uma vez e fica quanto tempo quiser com eles, mas só recebe o próximo depois de devolver pelo menos um.

Pois a NetFlix tem um sistema de recomendações chamado Cinematch, que funciona até bem. Querendo melhorar a qualidade das recomendações eles lançaram, em 2006, um desafio. O primeiro a diminuir o erro das recomendações em 10% ganha US$1 milhão. É, um milhão de verdinhas. Os erros podem ser de dois tipos. Falsos positivos são quando o sistema faz recomendações estúpidas. Falsos negativos são quando ele deixa de recomendar algo que você ia gostar.

A idéia é genial: outsourcing da inovação. Gente do mundo inteiro, times acadêmicos e nerds em garagens estão participando e a NetFlix só paga se alguém conseguir os resultados que eles querem. Fora a publicidade gratuita e o incentivo à pesquisa - dezenas de publicações surgiram desse desafio.

Não é fácil. Em menos de um mês, já tinha gente na metade do caminho, com 5% de melhora. Mas depois disso, o progresso foi cada vez mais lento. Depois de um ano, um time da AT&T Labs Research tinha reduzido o erro em 8.43% e ganhou um prêmio de progresso de US$50.000,00 e uma placa horrível de “honra ao mérito”. Eles são os atuais líderes, com 9% de redução.

A grande maioria dos líderes no desafio utiliza métodos similares para gerar novas recomendações: eles se baseiam em filmes que você assistiu e gostou (ou quer assistir) e recomendam outros filmes similares. Isso é outra aplicação de clusterização.  O segredo está em definir uma forma de medir essa similaridade que faça sentido para quem está alugando os filmes, o consumidor final da NetFlix.

Recentemente, um outro competidor chamou atenção. Ao contrário dos times de laboratórios e universidades, esse é só um cara em casa. E sua formação original é em psicologia. Ele começou a trabalhar no problema um ano depois de anunciado e seus resultados melhoraram mais rapidamente que os de qualquer time até então. Atualmente, Gavin Potter está em nono lugar. Qual o seu segredo?

A maneira mais comum de medir a “similaridade” entre dois filmes é representar os filmes como um conjunto de números, onde cada número tem um significado específico.  Assim, o primeiro número pode ser o gênero do filme e duas comédias tendem a ser mais similares que uma comédia e um épico de guerra, por exemplo.  O segundo número pode indicar a linguagem do filme, e assim por diante.  Quando se caracteriza um filme dessa maneira, cada número é uma dimensão.

Existem métodos automáticos para determinar quais dimensões são importantes para um problema específico, mas eles são sujeitos a erros e decisões estúpidas, como toda técnica heurística.  Pois o segredo do Gavin é exatamente sua formação original.  Como psicólogo ele tem uma intuição muito melhor que a dos computeiros a respeito do valor de cada dimensão, e pensa em dimensões importantes que outros times ignoram.

Mesmo que ele não ganhe o prêmio, seu relativo sucesso em pouco tempo me lembra um velho ditado: a inteligência artificial não é páreo para a burrice natural.  Ou, de forma menos agressiva, nunca subestime o valor do conhecimento dos especialistas no assunto.

Data Mining, Inovação 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Microcrédito com ares de web 2.0

Microcrédito, de acordo com a Wikipedia, é emprestar quantias bem pequenas para pessoas que não têm como obter crédito no sistema financeiro tradicional. Pobres, desempregados, “empreendedores” de economia informal não têm como dar garantias bancárias e o sistema tradicional de crédito via bancos ou financeiras não os atende.

Microcrédito é uma idéia razoavelmente antiga, que se tornou popular depois de casos de sucesso no Bangladesh na década de 70, principalmente o do Grameen Bank. Em 2006 o banco e seu fundador receberam o Prêmio Nobel da Paz em reconhecimento ao profundo poder de transformação social do microcrédito.

Hoje em dia há milhares de organizações no mundo todo dedicadas ao microcrédito, inclusive no Brasil, embora o país ainda tenha muito a fazer no amadurecimento dessa idéia. A maior parte das organizações se divide em dois grupos: ONGs sem fins lucrativos e que recebem doações de capital para emprestar e bancos especializados, muitas vezes braços de bancos maiores tradicionais. As ONGs de microcrédito enfrentam o problema comum a todas as ONGs: levantar fundos.

Em 2005, um casal do Vale do Silício resolveu criar uma startup de microcrédito. Nascia a Kiva. Sem fins lucrativos, a Kiva permite que qualquer pessoa se registre e empreste pequenas quantias usando seu cartão de crédito ou conta no PayPal. Uma rede de organizações associadas mundo afora cadastra e seleciona as pessoas que receberão os empréstimos. O valor típico de um empréstimo é de algumas centenas de dólares, e cada usuário da Kiva participa com uma cota fixa de US$25. Dessa forma, cada empréstimo é um esforço colaborativo, bem dentro do paradigma Web 2.0.

E funciona? Sim, funciona. A Kiva explodiu e continua crescendo de forma exponencial. Em pouco mais de dois anos, ela emprestou mais de US$25 milhões. Foram mais de 37 mil empréstimos em 42 países, financiados com cotas de mais de 250 mil pessoas.

E isso não é tudo. De todos esses empréstimos, 99.9% foram pagos integralmente. Não existe banco tradicional no mundo que chegue perto disso. Só pra comparar, no Brasil a taxa de inadimplência de empréstimos bancários para pessoa física é de 7%, segundo o Banco Central.

Há quatro meses eu entrei na onda. Fiz dois empréstimos. O primeiro para a Sra. Selina John, que tem uma barraca de vender cerveja e refrigerantes em Dar Es Salaam, Tanzânia. O segundo para o Sr. Angel Peralta, do Equador. Confesso que escolhi pelo nome, mas depois vi que o Sr. Peralta já contraiu e pagou outros empréstimos anteriormente.

Selina já pagou todo o seu empréstimo. Com o dinheiro ela aumentou seu estoque e seus lucros mensais. Quando você empresta dinheiro, só o recebe de volta depois que todas as prestações (em geral mensais) são pagas. O dinheiro é creditado na sua conta da Kiva e você pode sacá-lo ou reemprestar.

A sensação de ajudar diretamente essas pessoas é viciante. A Kiva cria perfis de cada pessoa, com fotos e historinhas, o que cria um vinculo emocional. Ou seja, assim como a grande maioria dos outros usuários, nem pensei em sacar minha grana. Já estou à procura do próximo empréstimo. E torcendo pra que logo alguma organização de microcrédito do Brasil esteja madura o suficiente para atender aos critérios de cadastramento da Kiva :-)

E isso não é tudo. De todos esses empréstimos, 99.9% foram pagos integralmente. Não existe banco tradicional no mundo que chegue perto disso. Só pra comparar, no Brasil a taxa de inadimplência de empréstimos bancários para pessoa física é de 7%, segundo o Banco Central.

Há quatro meses eu entrei na onda. Fiz dois empréstimos. O primeiro para a Sra. Selina John, que tem uma barraca de vender cerveja e refrigerantes em Dar Es Salaam, Tanzânia. O segundo para o Sr. Angel Peralta, do Equador. Confesso que escolhi pelo nome, mas depois vi que o Sr. Peralta já contraiu e pagou outros empréstimos anteriormente.

Selina já pagou todo o seu empréstimo. Com o dinheiro ela aumentou seu estoque e seus lucros mensais. Quando você empresta dinheiro, só o recebe de volta depois que todas as prestações (em geral mensais) são pagas. O dinheiro é creditado na sua conta da Kiva e você pode sacá-lo ou reemprestar.

A sensação de ajudar diretamente essas pessoas é viciante. A Kiva cria perfis de cada pessoa, com fotos e historinhas, o que cria um vinculo emocional. Ou seja, assim como a grande maioria dos outros usuários, nem pensei em sacar minha grana. Já estou à procura do próximo empréstimo. E torcendo pra que logo alguma organização de microcrédito do Brasil esteja madura o suficiente para atender aos critérios de cadastramento da Kiva :-)



--> Inovação, Web 2.0 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Next Entries »