Do curso: Como Usar o Aprendizado de Máquina para Agregar Valor à sua Empresa

Clustering: características comuns entre os elementos

Se você trabalha na área de vendas ou marketing, certamente possui um banco de dados de clientes e algum tipo de segmentação. É comum atuar com segmentos definidos a partir de diferentes características dos clientes, fruto da experiência e conhecimento do negócio. Contudo, nossa capacidade de observar e processar informações como humanos é limitada. E se aproveitarmos o potencial do aprendizado de máquina para encontrar relacionamentos adicionais entre muitas outras variáveis e novas formas de dividir ou validar a adequação dos segmentos que usamos? O aprendizado de máquina permite identificar características comuns entre os elementos. Isso é chamado de clustering ou agrupamento, um tipo de aprendizado não supervisionado. Clustering é um conjunto de técnicas que visam formar grupos a partir de compilações de elementos com características ou variáveis semelhantes para possibilitar tal agrupamento. O objetivo desse processo é reconhecer uma estrutura ou padrão em um conjunto de dados não categorizados para criar grupos ou segmentos. Antes disso, é necessário determinar outros parâmetros, como o número total de agrupamentos ou clusters a identificar. Para diferenciar segmentos em nosso banco de dados de clientes, teríamos que indicar de alguma forma quantas divisões queremos atingir. Por exemplo, para esses dados representados em um espaço bidimensional, poderíamos detectar 2 grupos, mas também 4. Definir o número total de grupos e outros detalhes antes de escolher o tipo de algoritmo delimitará a eficiência do nosso modelo. Geralmente, são procurados grupos mutuamente exclusivos, ou seja, que um elemento não possa pertencer a vários conjuntos ao mesmo tempo, de modo que, internamente, sejam componentes homogêneos e, entre grupos, sejam heterogêneos, com base em todas as características que os definem. Em nosso exemplo, cada cliente deve pertencer a apenas um segmento. Os grupos são compostos por clientes semelhantes entre si e, por sua vez, diferenciados das pessoas de outras divisões. Se adotarmos uma abordagem teórica ou definição tradicional, quanto mais parecidos forem os elementos do segmento e quanto mais diferentes de outras divisões, melhor. No entanto, na vida real, às vezes, é possível identificar elementos que pertencem a um grupo e estão próximos de outro. Esses casos extremos, que não diferem tanto entre si, podem apresentar oportunidades estratégicas. Neste tipo de aprendizado não supervisionado, será fundamental a intervenção de perfis com conhecimento de negócio, tanto para interpretar os resultados como para determinar o número total de grupos que devem ser identificados. Essas pessoas também costumam estipular a desigualdade entre os grupos, ou seja, quão diferentes eles devem ser uns dos outros, o tamanho máximo do cluster ou se deve haver alguma hierarquia para decidir a qual agrupamento cada elemento pertence. Se isso não estiver definido, poderá condicionar a classificação no segmento, incluindo um componente em um grupo menos afim que outro antes de tempo.

Conteúdos