Categorização de textos

8:00 am Inteligência Artificial, Linguagem Natural

Eu ia comentar um pouco no post do Murilo (“Computador, por favor encontre…“), mas achei que daria um artigo. Vamos lá…

Como descrito pelo Murilo, o processamento de linguagem natural (do inglês Natural Language Processing ou apenas NLP) é o campo da Inteligência Artificial que visa fazer com que os computadores entendam os seres humanos pela sua linguagem natural, sem que seja necessário aprender uma linguagem artificial utilizada pelas máquinas.

Para isso, existem basicamente duas técnicas: análise sintática e análise estatística.

O RelEx descrito pelo Murilo utiliza análise sintática para extrair informações semânticas dos textos. A outra técnica citada utiliza um conjunto de dados previamente conhecido para calcular valores estatísticos que são utilizados para processar um conteúdo desconhecido. Por exemplo, na análise estatística é possível calcular as probabilidades da palavra “manga” significar fruta ou parte de uma camisa, de acordo com as palavras que aparecem próximas à ela.

Com o crescimento e popularização da Web, é crescente também o conteúdo textual disponível para os usuários. Além da aplicação que o Murilo apresentou (sistema de busca mais ciente da semântica do conteúdo buscado), temos trabalhado aqui no Labs com categorização de textos utilizando a análise estatística.

Essa aplicação visa atribuir categorias para grandes quantidades de textos desconhecidos, sem que o usuário os tenha lido. Por exemplo, existem diversos sites de notícias que publicam várias notícias diariamente. Um categorizador de textos pode selecionar, dentre todas as notícias de todos os sites, quais as que o usuário mais se identifica e tem interesse em ler, poupando bastante tempo.

Outro uso bem conhecido de categorização de textos é o processamento de críticas de produtos em sites de comércio eletrônico ou de filmes, para notificar ao usuário, sem que o usuário as leia, se o produto ou filme é bom ou ruim.

A categorização também pode ser utilizada em máquinas de busca. Aqui no Labs, em parceria com a Novamente LLC, foi desenvolvida uma máquina de busca que utiliza o feedback do usuário para ordenar as páginas que aparecem na tela de resultados. A idéia é fazer com que os primeiros resultados sejam os mais relevantes para os usuários.

Existem diversas outras aplicações interessantes para NLP. Vejo um futuro bastante promissor nessa área……..