Do curso: Como Usar o Aprendizado de Máquina para Agregar Valor à sua Empresa
Modelagem e treinamento
Do curso: Como Usar o Aprendizado de Máquina para Agregar Valor à sua Empresa
Modelagem e treinamento
Já temos nossos dados coletados e prontos para enfrentar a próxima fase: modelagem e treinamento. A modelagem pretende determinar as variáveis ou características ótimas para que o algoritmo seja capaz de gerar previsões concisas. A engenharia de características ou feature engineering é o processo anterior à criação do modelo em que os campos de dados são analisados e estruturados. Organizá-los adequadamente e eliminar aqueles que são irrelevantes é essencial para que o modelo receba as informações corretas e faça previsões confiáveis. Em seguida, vem o treinamento. Durante esse processo, trabalhamos com uma parte do histórico de dados disponível. Isso é feito para depois validar se o modelo treinado oferece boas previsões. Por isso, é necessário salvar parte do histórico, já que devemos validá-lo com dados diferentes dos usados no treinamento. Aqui, o algoritmo de aprendizado encontra padrões sob certas condições definidas pelo cientista de dados, gerando um modelo para capturá-los. Essas condições estabelecidas pelo cientista de dados determinam as propriedades do processo de aprendizado e são chamadas de hiperparâmetros. Seu valor ideal não pode ser conhecido antes do treinamento, portanto regras e valores genéricos são frequentemente usados ou configurados com base em hiperparâmetros que resolveram anteriormente problemas semelhantes. O processo é repetido modificando as propriedades para encontrar o melhor padrão possível. Os modelos de aprendizado de máquina são gerados a partir de algoritmos, dados e hiperparâmetros. O processo de aprendizado é iterado muitas vezes para obter padrões precisos e reduzir os erros na previsão, ou seja, o objetivo é um bom ajuste. O nível de ajustamento impactará a qualidade das estimativas. Neste exemplo, é fácil identificar visualmente a linha de tendência entre os pontos, e vemos como um ajuste deficiente ou excessivo pode gerar um modelo com previsões errôneas. Novamente, a intervenção humana é necessária para validar os resultados de um modelo e tomar medidas corretivas. Agora que nosso modelo foi treinado, é hora de avançar para a validação.