Cervejas e fraldas
Um dos causos mais famosos e mais mal-interpretados da história do Data Mining é a famosa correlação entre cervejas e fraldas.
Existe a lenda de uma loja que descobriu que homens que compravam fraldas entre 5 e 7 da tarde das Quintas e Sábados, também compravam cerveja. Os donos então puseram fraldas perto das cervejas e as vendas subiram. Um monte de hipóteses surgiram, desde o cara que ia trocar a fralda alcoolizado (má idéia) até a auto-recompensa, etc.
Bem, a história não é bem assim. Na verdade, ela parece ser BEM DIFERENTE disto.
Um lugar onde há muitos dados é no supermercado. No esforço de entender melhor o comportamento do consumidor, especialmente a partir do início da década de 90, começou-se a estudar o chamado Market Basket (Cesta de compras), que nada mais é que a lista de produtos que o cliente levou numa compra.
Tentar encontrar padrões, computacionalmente, nestes dados, muitas vezes se dá na forma de regras de associação. A forma mais comum de expressar uma regra destas é “SE [CONDIÇÃO] ENTÃO [CONCLUSÃO]“. Por exemplo: SE leite E açúcar ENTÃO café (muita gente que compra leite e açúcar compra também café).
Algoritmos automáticos para obter estas regras vão encontrar, em sua grande maioria, as regras óbvias e as regras inúteis. Eventualmente, surgem regras que podem resultar em insights bacanas que levarão ao lucro. Mas como o nome diz, em Data Mining, a gente escava toneladas de terra prá achar uns gramas de ouro.
A geração destas regras é um processo demorado, então os supermercados acabam trabalhando com categorias de produtos (ao invés de produtos individuais) e restringem o campo de busca a assuntos mais específicos. Há várias maneiras de obter estas regras como esta bem didática que eu encontrei usando excel.
Voltando à cerveja e às fraldas, a verdade sobre esta história parece ser bem menos glamourosa. Talvez, ninguém tenha realmente ganhado rios de dinheiro vendendo cerveja e fraldas juntas.
Errou a wikipédia. Tsc Tsc. [UPDATE: o Girino diz que corrigiu]
Mas o Data Mining, muitas vezes, traz mais perguntas que respostas.
Dado que cerveja e fraldas estão correlacionados, o que é melhor? Deixar um perto do outro prá facilitar a compra impulsiva ou deixar um longe do outro prá forçar o sujeito a andar pela loja e possivelmente comprar algo mais no caminho?
Outro aspecto dos Market Baskets é que à medida em que sabemos quem é o cliente (geralmente via cartão de crédito ou de fidelidade), abre-se margem para analisar o Market Basket ao longo do tempo. O supermercado sabe que se você comprou um cortador de grama, provavelmente vai comprar um regador, etc.
June 17, 2008 by Leonardo Kenji Data Mining 2 Comentários
