Web semântica, sem enrolação

Hoje me pediram para explicar o que era a tal web semântica. A pegadinha é que se queria uma resposta “sem frescuras”, “sem enrolação de marketing” e com exemplos concretos. Esse artigo é uma tentativa de abordagem bem informal desse assunto.

A web que a gente conhece é feita para ser acessada por pessoas. A informação é organizada de forma que fique esteticamente agradável, num formato familiar aos usuários. Usabilidade é fundamental, mas cria um problema: o que é fácil de ser entendido por humanos não é compreendido por computadores.

Tome como exemplo as suas lojas preferidas na Internet. Os produtos, preços e condições de pagamento são mostrados de forma a chamar a sua atenção. Cada loja faz isso de uma forma diferente. Se você está comparando preços de uma dúza de lojas você vai ter que fazer uma dúzia de buscas, e manualmente copiar e colar isso numa planilha, para só então “digerir” esses dados.

Alguns sites fazem isso automaticamente, mas mesmo esses formatam os resultados para pessoas; escrever um programa que acompanha o preço de alguns produtos todos os dias acessando um site assim dá bastante trabalho (recentemente dei umas dicas para um amigo que fez isso).

A idéia da web semântica é ter toda essa informação disponível não apenas para pessoas, mas também num formato fácil de ser processado por computadores (imagine acessar os preços de todas as lojas da web como se acessa uma planilha eletrônica ou um banco de dados!).

No início acreditava-se que isso se tornaria realidade quando cada criador de conteúdo na web formatasse seus dados de forma estruturada. O HTML comum, usado com fins puramente visuais, daria lugar a linguagens e tecnologias mais rígidas (XML, RDF, OWL, etc.), e seriam disponibilizandas formas de acesso automatizado aos dados (semantic web services, por exemplo).

Só que o progresso nesse sentido tem sido lento: basicamente dá muito trabalho e ninguém tem muito interesse em fazer isso. Lojas não gostam quando seus preços são comparados com o das outras! :-). Há soluções específicas bastante bem-sucedidas, mas não são tão conhecidas do grande público.

Uma tentativa de atacar o problema por outro lado é usar software que consegue transformar informação formatada para pessoas em informação estruturada, automaticamente ou com ajuda do usuário.

Um exemplo desse último caso é o PiggyBank / Solvent, código livre desenvolvido no MIT.

Logo do Piggy Bank

O Solvent é uma extensão pro Firefox que deixa qualquer usuário médio criar (”quase” só visualmente) um código JavaScript que extrai informação de uma página (um scraper).

Com o Solvent (ou outras ferramentas parecidas) você pode capturar os produtos e preços de uma loja virtual, ou as notas de um jogo num site de reviews, ou endereços de agências na página do seu banco, por exemplo. Ele converte informação organizada visualmente para humanos em informação estruturada acessível por computadores.

O PiggyBank é um banco de dados estruturado para armazenar as informações extraídas pelo Solvent. Assim, se todo mundo contribui com scrapers para diferentes sites, o PiggyBank fica cheio de informação facilmente recuperável.

Ainda que para a web a coisa ainda não dê muito certo, isso numa intranet grande ou com fins específicos pode ser muito útil. Eu investiguei bastante a fundo esse tipo de ferramenta enquanto trabalhava para melhorar a busca e o atendimento aos usuários do portal do condado de Miami-Dade, na Flórida.

A partir do momento que as informações da web estão disponíveis num formato estruturado (num banco de dados, planilha ou arquivo XML, por exemplo), fica fácil pensar em um monte de aplicações interessantes.

Por exemplo, seria possível criar um agente inteligente que monitorasse milhares de lojas detectando variações de preço de produtos em que você está interessado. Poderíamos juntar informação geográfica das lojas com informação dos preços e das opiniões de usuários (cada um desses dados vindo de sites diferentes) e mostrar tudo isso no Google Maps, com gráficos feitos com a Google Visualization API - dando uma idéia de como um produto é aceito em diferentes locais, e como o preço influencia nisso.

Obviamente  a idéia central da web semântica não está restrita à implementação específica de um subconjunto dos aspectos dela que o PiggyBank / Solvent provê, nem a tecnologias específicas tradicionalmente associadas a ela. É muito mais um conceito do que uma implementação ou produto propriamente dito.

Os mashups - “misturas” inteligentes de informações de diferentes fontes para criar uma aplicação web ou site original - tão em moda hoje em dia, são materializações bem concretas do conceito de web semântica, sem necessariamente usar nenhuma das tecnologias tradicionalmente associadas a ela. Eles mostram que quando é possível ter acesso uniforme a diversas fontes de informação o resultado final pode ser surpreendente.

Um exemplo recente: misturando-se informação geográfica com pesquisas no Google de sintomas de gripe é possível criar um detector de epidemias de gripe que avisa com duas semanas de antecedência quando uma epidemia de gripe vai chegar em determinado local!

Internet, Linguagem Natural, Web 2.0 0 Comentários

I’m a Mac, I’m a PC… I’m Google

Desde 2006 os telespectadores americanos acompanham uma série de anúncios publicitários da Apple, onde PCs e Macs são comparados entre si de forma divertida. Os PCs são tratados como sisudos e sem graça, enquanto os Macs são divertidos e fáceis de usar. Essa série de anúncios ficou conhecida como “I’m a Mac/I’m a PC”, pois cada plataforma é representada por uma pessoa, com estilo e roupas correspondentes à imagem que os criadores da campanha quiseram passar.

Veja abaixo alguns dos comerciais no YouTube:

PC lotado
Macs não travam
Upgrades

Hoje o Erick Schonfeld, do blog TechCrunch, escreveu um artigo interessante sobre se o Google deveria usar os métodos tradicionais de propaganda - rádio, TV e jornais - para melhor estabelecer sua marca. Mas uma frase no último parágrafo do artigo me chamou a atenção:

I’d love to see an ad campaign for Google Docs along the lines of the “I’m a Mac/I’m a PC” Apple ads

Enquanto eu lia, já imaginava uma propaganda semelhante às acima, com o Mac e o PC conversando entre si, mas de repente uma voz onipresente diz “Hello, I’m Google Docs, and I run anywhere”.
Se eu tivesse um pouco mais de habilidade artística, faria um filmezinho assim no Youtube :-)

E você, tem sugestões de uma propaganda para o Google nesses moldes? Escreva aí embaixo nos comentários. Quem sabe não enviamos todas as sugestões para o TechCrunch?

Renato Mangini é arquiteto de software sênior. Foi sócio fundador da Vetta Technologies e da Vetta Labs e recentemente criou uma startup de tecnologia para desenvolver o wapawapa. Sua formação acadêmica inclui um bacharelado em Ciência da Computação e um mestrado inacabado, ambos pela UFMG, e cursa agora um MBA no Ibmec.

Internet, Negócios, Web 2.0 1 Comentário

Screencasts

Só uma explicação rápida. Algumas pessoas me perguntaram sobre os vídeos de demonstração dos cachorros virtuais, disponibilizados semana passada. Os vídeos foram gerados com o Dream Screen, um produto para criação de screencasts da Dream Broker, uma startup finlandesa. Não sou de fazer propaganda, mas o Labs foi beta tester do Dream Screen, e eu gostei bastante do produto, tanto pela qualidade do vídeo resultante quanto pela falta de dor de cabeça com conversão de formato, uploading e armazenamento online.

Web 2.0 0 Comentários

TechCrunch 50!

Está rolando em San Francisco a TechCrunch 50, uma grande conferência onde startups se apresentam para a imprensa, investidores, empreendedores e outros formadores de opinião do Vale do Silício. É provavelmente o maior evento dedicado ao lançamento de novos produtos, sites e empresas inovadoras do mundo. As empresas selecionadas (52 de um total de mais de 1000 inscrições) têm que manter seus produtos em segredo até a conferência.

Como a conferência já começou, podemos anunciar que um dos produtos lançados foi desenvolvido todinho aqui no Labs, e está em beta atualmente. O StockMood.com é uma ferramenta para auxílio a pequenos investidores na bolsa dos EUA. O sistema usa processamento de linguagem natural e inteligência artificial para determinar o “tom” (positivo ou negativo) de artigos que saem na imprensa sobre uma empresa.

Correlacionando o tom dos artigos com o movimento do preço da ação ao longo do tempo, ele tenta quantificar o “humor” da ação, e gera alertas quando o humor e o tom dos artigos do dia chegam a valores muito altos ou muito baixos. Esses alertas indicam uma possível reversão dos preços. O sistema de classificação do tom de artigos está longe de ser perfeito, mas os usuários podem corrigir os erros do sistema pelo site, gerando alertas melhores e permitindo que o próprio classificador aprenda com os erros.

Brett Markinson presenting StockMood.com

A foto acima (by Andrew Mager) é do Brett, CEO da nova startup, durante a apresentação. A recepção ao StockMood.com foi geralmente bem positiva, como nesse artigo da Fortune. embora o modelo de negócios da empresa ainda esteja sendo refinado. O beta será limitado, por enquanto, a 1000 usuários cadastrados, então se você achou a idéia interessante e não tem medo do inglês, cadastre-se!

E, finalmente, parabéns a toda a equipe do StockMood.com, especialmente ao Fabrício Aguiar e ao Gustavo Gama, que vocês conhecem um pouco de posts aqui no blog.

Data Mining, Inovação, Inteligência Artificial, Internet, Linguagem Natural, Negócios, Web 2.0 8 Comentários

A regra de Pareto e as máquinas de busca

A declaração recente da Marissa Mayer, “Vice President of Search Product and User Experience at Google”, de que o Google já resolveu 90% do problema de busca, mas que os 10% ainda vão dar um bom trabalho, incomodou muita gente na webosfera.

Prá quem não conhece a moça, Marissa é certamente uma das executivas mais importantes da indústria atualmente, e talvez um dos pontos máximos que um profissional de usabilidade almejaria hoje em dia.

O que há por trás dessa declaração? Bem, podemos desfilar vários aspectos interessantes aqui.

Uma delas é que frequentemente, no desenvolvimento de software, fala-se sempre da regra do 80/20 ou a Regra de Pareto, que originalmente falava que 80% das consequências vinham de 20% das causas. Mas claro que a proporção foi ganhando outros usos, como “80% do desenvolvimento leva 20% do tempo e os 20% restantes levam os outros 80% do tempo”.

Em bom e claro Português, “o diabo vive nos detalhes” :-)

De fato, muito da busca na web chegou a um nível de refinamento e desempenho formidáveis, mas o que significa dizer que 80% ou 90% do problema já está resolvido? E é neste pé que os críticos da web resolveram pegar para criticar o argumento da Marissa.

Segundo a techcrunch por exemplo, o que resta das coisas a serem indexadas e buscadas ainda é muito grande. Ainda não temos resultados satisfatórios GENÉRICOS para buscas semânticas, buscas em imagens, buscas em filmes, e muitos et ceteras.

Podemos dizer, certamente, que existe um grande potencial em buscas de imagens, por exemplo, em contextos restritos, e este é um mercado que deve crescer rapida e intensamente nos próximos anos. Mas se você quer buscar pela foto do gato com o cachorro, a menos que vc tenha intervenções humanas de forma inteligente, não se resolveu ainda o problema computacional de definir o que é exatamente um cachorro. Mas se você souber formatos de armas, talvez consiga localizar, com algum bom grau de precisão, armas num recinto por exemplo.

E aí podemos estender para as buscas em linguagem natural e etc, e a conclusão é: ainda tem muito terreno a ser caminhado neste aspecto, e isso significa, em termos de inovação, que há muito o que explorar ainda nesta área. Será que 10% é achar uma agulha numa cena de 1 segundo no youtube?

Enquanto isso, silenciosamente, coisas acontecem no Yahoo.

Ninguém do porte desta moça dá declarações impensadas. Stay tuned.

Update 11/9: 2 dias depois, Marissa escreveu uma declaração, voltando atrás, e concordando basicamente com a opinião das pessoas (eu entre elas) que acham que ainda falta muito chão, inclusive citando nosso bom e velho Pareto ;-)

Ciências cognitivas, Data Mining, Inovação, Inteligência Artificial, Internet, Linguagem Natural, Teoria da Informação, Visão Computacional, Web 2.0 0 Comentários

Distribuindo conteúdo digital

É muito interessante como o meio digital revolucionou algumas formas de distribuição. O que é ótimo, porque felizmente nos afastamos cada vez mais daquela época em que recebíamos CDs promocionais de, bem, um monte de gente incluindo a AOL…

Também é curioso que nos primórdios da Web, muitos advogavam que a distribuição pela web iria baixar os preços, afinal, se as pessoas sabiam que pela web era mais barato para o produtor, quem iria aceitar pagar a mesma coisa baixando pela web?

Bem, a história mostrou que a percepção de valor do cliente (me perdoem o marketerismo) falou mais forte e, efetivamente, a diferença entre o que se compra na web e o que se compra fora dela, fora o fator concorrência, não é tão grande assim.

Eu me lembro do Murilo me contando que alguns fabricantes de jogos estavam usando torrent para distribuir os jogos. Afinal, quem realmente quer aquela caixa bonita do joguinho se vc pode ter da noite pro dia tudo o que interessa de verdade no conforto do seu lar? As pessoas irão pagar de bom grado pela conveniência.

Mas o que me chamou a atenção foi um anúncio de empresas que vendem filmes em pendrives, como a argos. Os caras estão vendendo o filme dos caça fantasmas num pendrive de 2 GB a US$ 50. Isso, claro, porque o preço das memórias flash despencou de tal forma que isso se tornou uma alternativa viável. O pendrive em si não deve estar custando mais que uns US$ 10, prá quem compra do fabricante em grandes quantidades… (na verdade, é provável que seja 1/10 disso)

E se você não der bola pro filme (embora as piadas continuem boas até hoje), vc pode simplesmente apagar o pendrive e usar para suas coisas.

Aí fica a nossa pergunta na cabeça. “Mas o cara não consegue baixar isso de graça na web?”. Bem, sim, mas enquanto a armazenagem de dados fica rapidamente mais barata, o que dizer da banda de web? Economicamente falando, a tendência é que os preços da banda de web não caiam na mesma velocidade, para não dizer que estes preços na verdade devem subir para o heavy users.

Faz o google, portanto, muito bem em investir na sua própria infra-estrutura de rede mundial. E só Deus sabe quanta banda o Youtube consome na web.

Então, talvez, vender o filme no pendrive não seja uma idéia tão ingênua assim.

Afinal, alguém tem que pagar a conta da web 2.0. Um doce prá quem adivinhar quem vai ser. ;-)

Economia, Inovação, Internet, Web 2.0 0 Comentários

Google x Wikipedia

O Google lançou no dia 23 de Julho um concorrente do Wikipedia chamado knol. Diferentemente do Wikipedia, os autores de artigos do knol serão identificados e seus artigos não poderão ser editados por outros. Outros usuários poderão somente comentar, criticar e sugerir alterações (que poderão ou não ser incorporadas pelo autor). Além disso, com o intuito de motivar as contribuições, parte do lucro dos anúncios no site será distribuída para os autores.

O Google não será responsável por editar os artigos e não irá certificar nenhum conteúdo. Será função dos leitores identificar a qualidade dos artigos e dos autores pelos comentários.

Agora vamos ver se a máquina de busca anunciada pelo fundador da Wikipedia Jimmy Wales irá mesmo ser um concorrente forte do Google, ou se o knol irá ganhar o espaço da Wikipedia.

Internet, Web 2.0 0 Comentários

O Futuro, tal como não o conhecemos

Interessante esta iniciativa do The Washington Post de se aliar ao Predictify e criar um mecanismo onde as pessoas podem ler notícias e dar seus palpites futurísticos. E além das pessoas poderem palpitar, as que acertarem mais podem ser premiadas também. Em dinheiro. Bandeira levantada pelo site Techcrunch.

Por um lado, podemos até pensar que hajam pessoas com informação e capacidade analítica suficientes para fazer boas previsões de muitas coisas. Há inclusive sites de apostas que apostam sobre praticamente qualquer coisa, desde resultados de jogos até oscilações de humor da bolsa. Tentar prever o futuro é um jogo e tanto.

Mas o grande jogo aqui certamente não é prever o futuro, mas envolver os leitores do jornal. Web 2.0 na veia. Afinal, predições também são uma forma de emitir opinião.

Interessante que a ciência também está sempre atrás de predições. Lembrei de um livro que eu comprei mas que, uh… eu não gostei, chamado Chance Discovery, onde o Yukio Ohsawa explica sua teoria que busca basicamente insights nos dados que não se “encaixam” no padrão, com aplicações que vão desde a predição de terremotos (afinal, é um autor japonês, e terremotos são uma coisa séria por lá), oscilações na bolsa, até prospecção de novas oportunidades de negócios, criação de novos produtos, e muitos et ceteras. Isso tudo, claro, incluindo o elemento humano na análise, como fator fundamental na produção do insight.

Apesar de não ter gostado do livro, ainda assim há análises na web que conseguem extrair uma discussão interessante, como este post que mantém um pé atrás no ceticismo, comparando o autor ao Genichi Taguchi, cujo trabalho influenciou por exemplo o Six Sigma, da famigerada Qualidade Total, e ressaltando a importância do fator subjetivo na análise.

Data Mining, Redes Sociais, Teoria da Informação, Web 2.0 2 Comentários

O novo serviço de busca do Yahoo

O Yahoo anunciou semana passada o BOSS, abreviação de Build your Own Search Service, ou construa seu próprio serviço de busca.  O BOSS oferece uma API (e um framework para criação de “mashups”) para qualquer pessoa que queira prover serviços de busca, em seu site ou sobre toda a web indexada pelo Yahoo.  Ao contrário de APIs anteriores do Yahoo e do Google, não há um número máximo de pesquisas, quantidade de resultados ou qualquer outro limite do tipo.  Em princípio, com banda e hardware suficiente, você pode usar esse serviço para competir com o próprio Yahoo no mercado de busca na web.

Qual a motivação por trás do BOSS?  De acordo com o pai da idéia, Vik Singh, é fragmentar o mercado de busca, permitindo que empresas e sites utilizem o conhecimento que eles têm para oferecer resultados melhores e mais relevantes que os disponibilizados pelo Yahoo ou Google.  Como isso aconteceria?  Bom, quando você está em um site qualquer, os servidores do próprio site têm um bocado de informação útil a seu respeito: quais páginas naquele site você visitou recentemente, seu perfil e transações passadas se você é um usuário registrado, e o próprio conteúdo do site como indicador de contexto.  Todos esses fragmentos de informação podem ser usados para guiar uma busca na web, reordenar resultados e sugerir resultados relevantes de dentro do próprio site.

Por exemplo, se estou navegando pelo Mercado Livre para comprar um telefone celular e resolvo buscar o nome do aparelho na web, a princípio o próprio Mercado Livre pode me oferecer resultados melhores que os do Google.  Os servidores do Mercado Livre sabem que estou procurando um celular, provavelmente com intenção de comprá-lo, então podem priorizar resultados com avaliações do aparelho, páginas do fabricante com documentação e material de suporte, e assim por diante.  Os servidores também sabem quais outros aparelhos eu considerei recentemente, e podem priorizar páginas com comparações entre esses modelos. Tudo isso é facilitado pelo BOSS, e pode ser combinado ao suporte existente para busca dentro do próprio Mercado Livre.

O Yahoo  oferece o BOSS gratuitamente.  O que eles ganham com isso?  Eu acho que é uma jogada poderosa em cloud computing, com dois desdobramentos: vendor lock in e o impacto no mercado de busca propriamente dito.

A Amazon e o Google cobram pelos serviços oferecidos, embora o Google App Engine tenha uma cota de processamento e banda iniciais gratuitos.  Mas a arquitetura do Google App Engine é peculiar e, se você desenvolve uma aplicação web nessa arquitetura, existe um forte incentivo para se manter na mesma.  É uma forma de “vendor lock-in” similar à que a Microsoft usa com Windows e Office.  O BOSS faz a mesma coisa, mas em um nível diferente, mais semântico.  Ao utilizar o BOSS, você não usa cloud computing para armazenamento e processamento, mas para fornecimento de informação.  Eles não estão somente simplificando sua vida.  Ao contrário do Google App Engine e dos Amazon Web Services, o BOSS possibilita que você ofereça serviços, funcionalidade e conteúdo baseados em busca na web, algo até então muito caro e arriscado.

E aí vem o segundo aspecto interessante para o Yahoo.  Se o BOSS for fácil de usar e gerar bons resultados (confesso que não uso busca do Yahoo há anos, então não sei avaliar sua qualidade nem da forma mais grosseira), ele pode catalizar aplicações populares de busca na web, tornando o Google menos onipresente nesse mercado.  Como o Yahoo está bem longe da liderança do mercado, essa fragmentação lhe seria vantajosa.  Imagine se sites populares, como Amazon.com, Facebook e outros tivessem bons serviços de busca que tirassem proveito do contexto como mencionei acima.  Isso diminuiria o incentivo das pessoas a usar a busca “comum” existente.  Se isso acontecer, o Google, com sua enorme fatia de mercado, teria muito mais a perder que o Yahoo.

Inovação, Internet, Negócios, Web 2.0 0 Comentários

A Nova Panacéia Universal: o “Dilúvio de Dados”

Recentemente, um artigo na Wired, escrito pelo seu próprio editor, o Chris Anderson, fez uma declaração bombástica: a de que o método científico está obsoleto porque os “algoritmos do Google” podem achar correlação de qualquer coisa com qualquer coisa. Ok, quem ler o artigo vai ver que eu estou supersimplificando e comprimindo tudo em uma frase, mas eu não diria que a versão descomprimida e complicada soa menos bombástica ou mais aceitável. Pelo contrário! :)

Nem bem uma semana passou após a emissão dessa opinião, uh, digamos, polêmica, e vários artigos pipocaram pela Internet dizendo basicamente duas coisas: que o método científico continua muito bem, obrigado, e que o autor provavelmente não tem uma noção conceitual muito clara do que é Ciência. Um exemplo particularmente bem-humorado desse contra-ataque é o artigo do Daily Galaxy. Não vou chover muito no molhado e só vou ressaltar um argumento bem interessante que vi por aí para desconstruir essa alegada “obsolescência do método científico”:

Primeiro, vamos desconsiderar as limitações do Google e outros search engines - sim, apesar de impressionantes, eles são ferramentas de domínio e capacidade limitados, feitas especificamente para produzir resultados de buscas de páginas Web (e outros tipos de documentos online) que satisfaçam a maioria das pessoas. Mas vamos supor que em um futuro não muito distante o Google se torne (como quer o editor da Wired) uma espécie de oráculo que saiba tudo de qualquer coisa e que em teoria substitui a Ciência. Vamos supor que alguém pergunte ao oráculo algo como “quero a cura da gripe” e o Google magicamente, usando só correlação de dados, mostre a fórmula da tal droga que cura gripe. Agora, uma pergunta para o leitor: você tomaria essa droga sabendo que ela é apenas o que algoritmos estatísticos “acham” que deve ser uma solução, sendo que ela nunca foi testada sequer em cobaias? Se a sua resposta é “não”, é um sinal de que você considera o método científico, e toda a parte de validação experimental, necessários sim.

Acho que o artigo irrealisticamente entusiástico da Wired é só um indício de uma manifestação recente do que chamo de “Sindrome da Panacéia Universal”. É uma síndrome recorrente, com inúmeras encarnações ao longo da história da Ciência e da Tecnologia, que basicamente são produzidas toda vez que algum recurso inovador e revolucionário se populariza. Essa síndrome aliás pode se materializar em vários níveis e em vários contextos, muitas vezes bem específicos. Por exemplo, no contexto da pesquisa de IA do início dos Anos 90 aqui no Brasil, redes neurais estavam muito na moda e havia um “hype” de que elas poderiam solucionar todos os problemas da aprendizagem de máquina. Também ao longo dos 90, nos campos de engenharia de software e linguagens de programação, havia um hype em torno da Orientação por Objetos, que também era “vendida” por muitos como a solução para todos os problemas do desenvolvimento, engenharia e arquitetura de software. E assim cada época vai adorando suas “balas de prata” até que as pessoas caem na real. (Ou então surja uma nova moda de bala de prata para substituir a anterior. :)

O hype de panacéia universal que a Wired caiu vítima, porém, além de mais recente é de um nível mais abrangente. Eu o chamo de a Panacéia do Dilúvio de Dados. Porque hoje em dia a capacidade de armazenamento de dados sobe às alturas, armazena-se dados sobre qualquer coisa, os dados são acessíveis de qualquer lugar e, o que talvez seja o ponto crucial, pode-se fazer buscas nesses dados, começa-se a criar no imaginário popular (ou quem sabe seja só no, como diria o Kenji, “imaginário computeiro” :) a noção de que a resposta para todas as perguntas e a solução para todos os problemas está nessa massa gigantesca de dados online, é só saber minerá-los direito; ela teria se tornado o próprio Logos, o Conhecimento Definitivo.

O meu reality check para isso é primeiro reconhecer que massas gigantescas de dados são sim coisas fascinantes e muito úteis - sei muito bem disso, uma boa parte do meu trabalho nos projetos do Vetta Labs com a Biomind envolve a análise de bases de dados biológicas com nossas ferramentas de aprendizagem de máquina. Mas, uma vez feito esse reconhecimento, também tenho de reconhecer que, em última instância, os resultados da nossa mastigação de dados servem é para sugerir ao biólogo o que eles devem investigar (e às vezes como a investigação deve ser feita) com seus experimentos; não serve de forma alguma para eliminar esses experimentos, mas antes para guiá-los, dar prioridades e mesmo levar à geração de novas hipóteses. De fato, esses métodos de mineração de dados não vieram para depor o Método Científico, mas antes para ajudar a Ciência, como uma nova (e extremamente poderosa) ferramenta analítica. E sinto que essa conclusão que tirei da minha experiência profissional e acadêmica com Bioinformática é generalizável sem problemas para todas áreas da ciência e da tecnologia. Assim, parece que as notícias do assassinato do Método Científico pela Panacéia do Dilúvio de Dados foram grandemente exageradas…

Biologia, Data Mining, Internet, Web 2.0 1 Comentário

« Previous Entries