Extração Inteligente de Palavras-Chave

Aqui na Vetta Labs desenvolvemos algumas tecnologias baseadas no processamento de linguagem natural, como já comentei em outro artigo. Hoje vou falar de uma nova aplicação que produzimos recentemente, que tem duas características bem interessantes: uma é suportar tanto textos em inglês quanto em português (o que é bastante incomum, já que as particularidades de nossa língua nem sempre são compatíveis com as técnicas mais conhecidas); a outra é que os resultados produzidos são muito fáceis de serem utilizados na prática, de forma simples, em por exemplo blogs e portais de conteúdo.

É comum sites associarem aos seus artigos frases ou palavras-chave relacionadas ao conteúdo. Essas palavras-chave podem funcionar como resumos do que é discutido, levar o usuário a outros artigos que tratam dos mesmos assuntos e também ajudar na categorização e indexação dos textos. Normalmente essas frases ou palavras-chave são escolhidas pelo próprio autor, ou então definidas pelos visitantes, de forma colaborativa (o que exige um grande número de visitas e “votos” para evitar resultados de baixa qualidade ou sem sentido).

O problema é que muitas vezes já temos uma grande coleção de textos sem palavras-chave definidas, e escolhê-las manualmente  é uma tarefa extremamente árdua.  Existem algumas ferramentas simples para detecção automática de palavras-chave, mas praticamente todas elas usam uma abordagem ingênua que dificilmente funciona bem: são usados dicionários, tabelas com palavras-chave pré-definidas, e  a aplicação simplesmente verifica se a palavra-chave na lista aparece no artigo. Essa alternativa é inútil se os artigos em questão são sobre assuntos pouco comuns, ou se as palavras-chave que desejamos são termos menos conhecidos.

Esse exatamente era o problema de dois dos nossos clientes: a h+ Magazine, uma revista eletrônica sobre trans-humanismo, singularidade e outras tendências tecnológicas e culturais, e o Ceticismo Aberto, um dos maiores sites do Brasil sobre ceticismo e divulgação científica.

Keywords through cyberspace (Digital Composite)

A solução que desenvolvemos utiliza técnicas de processamento estatístico de linguagem natural e aprendizado de máquina para extrair automaticamente frases e palavras-chave de milhares de artigos desses sites. As palavras-chave encontradas incluem neologismos, expressões, nomes próprios e termos obscuros que jamais apareceriam nos resultados de uma abordagem baseada em listas, e são automaticamente inseridas nos sistemas de gestão de conteúdo dos sites (baseados em WordPress e Drupal), permitindo seu uso imediato.

Nosso sistema inicialmente identifica frases ou palavras-chave candidatas criando sequências de até três ou quatro palavras. Cada candidata então é analisada, extraindo-se características como:

  • frequência no uso geral (palavras extremamente comuns não são importantes)
  • frequência no texto (palavras repetidas no artigo têm peso maior)
  • posição no texto (palavras no início ou no final do texto costumam ser mais representativas)
  • categoria gramatical (substantivos têm mais peso que preposições, por exemplo)
  • função sintática (frases sintaticamente incorretas ou incompletas são rejeitadas)
  • entidades ou lugares representados (o sistema identifica nomes próprios como Albert Einstein, Zumbi dos Palmares, Belo Horizonte ou São Luís do Paraitinga)

Note que combinar todas as essas informações extraídas e decidir se determinada candidata é ou não uma frase ou palavra-chave é uma tarefa complicadíssima. Para resolver esse problema, usamos um método de aprendizado supervisionado: utilizamos um pequeno número de artigos (em torno de 50 ou 100) que já tinham suas palavras-chave definidas manualmente pelos autores como exemplos positivos. Um algoritmo de aprendizado supervisionado analisa as informações acima dos exemplos positivos dados e aprende a identificar as palavras-chave, automaticamente. O interessante é que o modelo obtido é capaz de generalização, ou seja, apesar de ter aprendido “estudando” apenas 100 artigos ele é capaz de aplicar de forma correta as mesmas regras para artigos inéditos.

E os resultados são surpreendentes - às vezes é difícil convencer as pessoas de que as palavras-chave foram escolhidas automaticamente e não por uma pessoa capaz de ler e interpretar cada um dos artigos!

Notas

A nova versão do Ceticismo Aberto, já com as palavras-chave extraídas pelo sistema da Vetta Labs, entrou no ar no domingo 21 de Fevereiro, e a versão em inglês, para a h+ Magazine, deve ser disponibilizada publicamente em breve.

O projeto foi desenvolvido por Fabrício Aguiar (que já fez com a gente outras aplicações interessantes baseadas em linguagem natural), a partir de código escrito por Murilo Queiroz (que também coordenou o desenvolvimento) e diversos projetos de software livre, incluindo o WekaKEAOpenNLP, CoGrooRembrandt e OpenCalais.

Os arquivos de treinamento usados na versão para português foram criados  por Kentaro Mori, do Ceticismo Aberto, e muitas das idéias foram sugeridas inicialmente pelo Dr. Ben Goertzel.

Inteligência Artificial, Linguagem Natural 7 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 5.00 out of 5)
Loading ... Loading ...

Ben Goertzel fala de AGI (Artificial General Intelligence) na Fastforward Radio

A notícia e o mp3 com a discussão no Talk Show estão disponíveis para download em

http://ieet.org/index.php/IEET/more/ffr0809/

O programa tem cerca de 1 hora e meia e conta com a participação de Eliezer Yudkowsky, James Hughes e, claro, Ben Goertzel.

Inteligência Artificial 4 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Desafios em Classificação de Dados Multimídia

Bem no início deste blog, falamos do famoso desafio da Netflix, em que um prêmio substancial seria dado para quem conseguisse melhorar o desempenho do engine de recomendação de filmes da empresa.

E esse modelo de competição é tão bom que várias outras empresas também publicam seus “desafios” para quem quiser tentar resolver problemas não-triviais de classificação de dados multimídia. Empresas como a HP, a Accenture, a Nokia e mais tantas outras que identificam não só oportunidades de negócios como adorariam encontrar times de gente capacitada por aí. Nada mais fácil que um prêmio - que não é lá grandes coisas, alguns milhares de dólares - e visibilidade, já este um prêmio bem melhor - para atrair essas cabeças pensantes.

Um dos mapas da mina para este tipo de iniciativa é este interessante blog, da ACM Multimedia 2009 - talvez o evento acadêmico mais importante nesta área, de onde constam desafios como

1. Onde esta foto foi tirada? Pela Nokia

2. Identificação de eventos envolvendo objetos em vídeos (especialmente em câmeras de vigilância), pela Accenture

3. Particionamento automático de vídeos em elementos narrativos (e consequentemente fazer busca sobre este conteúdo), pelo Yahoo!

4. Identificação automática de gênero em vídeos, pelo Google

5. Identificação, monitoramento e análise de grandes eventos (prêmios, jogos, notícias, etc) em redes sociais, pela Current TV

dentre vários outros.

fica a dica

Data Mining, Inovação, Inteligência Artificial, Reconhecimento de Faces 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 5.00 out of 5)
Loading ... Loading ...

Google Summer of Code 2009

Aqui no Vetta Labs são desenvolvidos vários projetos da Novamente, e com isso temos bastante contato com o Singularity Institute for Artificial Intelligence (SIAI). Desde o ano passado o SIAI é um participante do Google Summer of Code, um programa que paga bolsas (US$ 4000) para estudantes do mundo todo trabalharem em projetos de código aberto e software livre durante o as férias do verão americano (daí o nome).

Os estudantes são orientados por mentores ligados às  organizações participantes. No GSoC 2008 fui mentor do projeto OpenBiomind-GUI, que desenvolveu uma interface gráfica para um conjunto de ferramentas open source para bioinformática. Outro colega, Lúcio de Souza Coelho, também participou como mentor. Foi uma experiência muito interessante e gratificante.

E agora foram abertas as inscrições para o Google Summer of Code 2009! Estudantes no final da graduação e em pós-graduação podem participar, submetendo propostas baseadas nas idéias sugeridas pela organização, que incluem projetos em inteligência artificial e robótica  (OpenCog), processamento de linguagem natural (Link Grammar e RelEx), bioinformática e outros temas.

As propostas são avaliadas pelos mentores e outros membros do grupo, e as melhores são aceitas no programa. Ano passado houve 70 propostas para 11 vagas. A data limite para submissão de propostas é 3 de Abril.

A página principal do GSoC tem todas as informações necessárias:

http://socghop.appspot.com

A página do SIAI no Google Summer of Code, especificamente, é a seguinte:

http://socghop.appspot.com/org/show/google/gsoc2009/opencog

Biotecnologia, Desenvolvimento, Inteligência Artificial, Linguagem Natural 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (2 votes, average: 5.00 out of 5)
Loading ... Loading ...

Algortimos genéticos e o Obama

Achei interessantíssima a pesquisa feita pela Affinnova, especializada em aplicar algoritmos genéticos para problemas voltados à área de Marketing.

O que é e o que faz, basicamente a Affinnova? A empresa começou com dois pesquisadores do MIT, que encontraram uma forma de utilizar algoritmos genéticos para selecionar as melhores idéias ou os melhores designs dentre um universo muito grande de possibilidades, com alguma intervenção humana no processo.

Trocando em miúdos, quando, em marketing, numa pesquisa, é necessário avaliar simultaneamente diversas variáveis, digamos, de um design de produto ou de uma campanha política, como a variedade de combinações dessas variáveis pode ser muito grande, o que se faz é agrupar essas variáveis e testá-las juntas em vários “profiles”, e tentar extrair daí quais são as mais importantes, isto é, quais fatores são determinantes na escolha, por exemplo, da melhor embalagem.

Mais em miúdos ainda, num processo de escolha de uma melhor embalagem, por exemplo, um grupo de usuários, pela web, escolhem os “profiles” que mais lhe agradam, e o algoritmo usa essa informação para, em tempo real, selecionar (no sentido darwiniano do termo) os melhores.

Qual a vantagem disso? Bem, pelo menos duas.

A primeira é que, num processo tradicional, a empresa teria que colocar vários designers para pré-analisar as melhores possibilidades, enquanto neste método você pode, computacionalmente, gerar combinatoriamente uma quantidade muito maior de possibilidades (digamos num caso típico, de 4.000 a 40.000) , mas ao mesmo tempo, pode apresentar um número factível de opções para cada entrevistado (digamos, umas 6 ou 10).

Claro que isso não substitui o trabalho de fazer protótipos que as pessoas possam manusear, o que é fundamental neste processo, mas facilita bastante para determinar quais fatores são os que devem ser trabalhados naquela embalagem.

A segunda vantagem, claro, é custo e tempo. Dentro do processo de refinamento do design de um produto, algo que costuma levar, numa única etapa, cerca de 2 meses e custar 175.000 dólares, a Affinnova consegue resultados comparáveis por 60.000 dólares num tempo bem menor.

Claro que, ao mesmo tempo, a técnica da affinova enfrenta o maior inimigo de toda inovação, que é ser diferente do processo anterior, e portanto produzir resultados que nem sempre são comparáveis aos resultados das bases históricas usadas pelas empresas de design de produtos.

Ao mesmo tempo, a Affinnova oferece mais uma técnica para o arsenal das pesquisas de marketing, sem concorrência direta até agora.

Para os curiosos, as técnicas da Affinova são bem descritas em seu pedido de patente

A forma sistemática da Affinnova de buscar novos designs de produtos, ou de selecionar as melhores idéias e conceitos não é nova. Alguns anos atrás, já se advogava técnicas como a RDE (formalizada no livro “vendendo o elefante azul”) para derivar o melhor design de produto por exemplo.

A história da Affinova também não é surpreendente. A empresa começou em 2000, mas só ano passado a empresa começou realmente a dar dinheiro (estima-se que uns 25 milhões de dólares para 2009), isso após a entrada do CEO Waleed Al-Atraqchi em 2005, que conseguiu dar um rumo de “negócios” para a coisa. Segundo as palavras do próprio CEO,

(…)“I said, in a sense, let’s not confuse ideation with optimization. Most studies say that companies don’t lack for ideas. Which ones are the best, and what to do with them, are really the big issues, and that’s the problem we should try to solve.”(…)

(…) “Eu disse, de certa forma, não vamos confundir geração de idéias com otimização. A maioria dos estudos mostram que as empresas não tem falta de idéias. Quais são as melhores e o que fazer com elas, que são realmente o grande negócio, e este é o problema que queremos solucionar.” (…)

Quem quiser conhecer mais sobre como funciona o design e a análise de resultados dessa interessante abordagem, que concilia um pouco da busca por insights típica das pesquisas “quali” e pela validação estatística das pesquisas “quanti”, pode conferir aqui essa interessante pesquisa da Affinnova (usada para descrever o que eles fazem, que é algo fundamental pro ramo inovador deles) usada para encontrar qual a melhor combinação de plataformas políticas para a campanha presidencial americana:

Eis a

- proposta da pesquisa,

- as variáveis a serem analisadas,

- a metodologia da pesquisa e

- as principais conclusões.

Inovação, Inteligência Artificial, Marketing, Usabilidade 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 4.00 out of 5)
Loading ... Loading ...

Aprendendo a fazer acrobacias em helicópteros

Este post é uma referência ao post publicado no blog Broadstuff.

O vídeo acima mostra um helicóptero que tenta fazer acrobacias através de um processo de aprendizagem em tempo real, graças ao atual estado de miniaturização de processadores, e utilizando uma técnica de IA conhecida como AIRP, que poderia ser traduzida como “aprendizado via reforço inverso”.

O processo se dá pela observação de um “instrutor” executando o procedimento. É tipicamente a técnica usada para o controle automático de veículos, onde o mais importante é a capacidade do “motorista” se adaptar ao ambiente da pista em tempo real.

No caso do vídeo acima, os alunos de Stanford elevaram a dificuldade do problema, forçando o algoritmo a manobrar em tempo real um helicóptero em manobras complicadas.

Para saber mais sobre AIRP, confira este paper.

Inteligência Artificial, Robótica 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (2 votes, average: 4.50 out of 5)
Loading ... Loading ...

Vetta Labs no SBGames 2008

O Vetta Labs é um dos patrocinadores do SBGames 2008, que acontece esta semana, de segunda a quarta, no campus da PUC-MG do Coração Eucarístico, em Belo Horizonte.

Em particular, uma frase bacana no release oficial do evento

O SBGames 2008 conta com o patrocínio da Microsoft, Sony, Vetta Labs, Google e Globo.com e com o apoio do BNDES - Banco Nacional de Desenvolvimento Econômico e Social e da Fapemig - Fundação de Amparo à Pesquisa do Estado de Minas Gerais.

Muito legal dividir um parágrafo com esses nomes aí. ;-)

Além de ter um stand no evento onde as pessoas poderão ver os vídeos de demonstração do Petaverse, os participantes do evento poderão também assistir a diversas e ótimas palestras, desde a do Dr. Ben Goertzel, da Novamente LLC (amanhã, terça, 16:10) até palestras sobre Storytelling com Ido Iurgel (Universidade do Minho, Portugal), uso de jogos na educação com John Nordlinger (Microsoft Research), entre diversos outros.

A programação detalhada do evento você consegue aqui.

Ah sim, e sobre o petaverse, temos mais um vídeo de demonstração no youtube (abaixo) e em alta resolução na dreambroker. O Fido fica cada dia mais esperto ;-)

Inovação, Inteligência Artificial, Mundos Virtuais 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (1 votes, average: 5.00 out of 5)
Loading ... Loading ...

Inteligência Artificial e a Empatia

Dr. Ben Goertzel escreveu um interessante artigo sobre IA, robótica e empatia. Em inglês, claro. Vale a pena conferir.

Inteligência Artificial, Robótica 1 Comentário

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

A Crise Financeira e a IA

post hiper-rápido, só para contar que nosso sócio-presidente Cassio Pennachin participou de uma discussão na The Huffington Post com vários especialistas nas áreas de Economia, Ciência da Informação e Inteligência Artificial sobre o papel das máquinas na recente crise financeira mundial.

vale a pena conferir.

Economia, Inteligência Artificial 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

Inteligência artificial e a ESPN

Seguindo o exemplo do Netflix, agora é a vez da ESPN abrir o leilão para o melhor algortimo de predição de desempenho de times, baseados em dados históricos. Via topCoder, um site onde desenvolvedores vendem seus serviços globalmente, via um mecanismo de competição (nada mais justo para quem quer fornecer para a ESPN). São US$ 100.000 em prêmios (falando assim, até parece frase do caminhão do faustão).

Os melhores algoritmos estão acertando em cerca de 80%.

Tem loteria esportiva nos estados unidos?

Independente do valor de se conseguir prever o desempenho ou não dos times no campeonato (afinal, as pessoas fazem apostas, os anunciantes gostam de avaliar o potencial dos jogos e dos times, etc), quanto será que a visibilidade deste concurso não rende para a ESPN? Imagine você ser o canal de esportes que além de passar e comentar o jogo, ainda mostra previsões.

Ou a quantidade de papo de buteco que isso rende. ;-)

Esportes, Inteligência Artificial 0 Comentários

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading ... Loading ...

« Previous Entries