Considere o seguinte cenário:
O cliente vende um produto com preço fixo de R$ 50,00
São realizadas 30 mil transações por mês
15% das transações são fraudulentas (4500)
Faturamento mensal: R$ 1.275.000,00
Perdas com as Fraudes: R$ 225.000,00
Margem de lucro (5%): 63.750,00
Pergunta-se, eu posso reduzir minha perda com fraudes?
Vamos coletar dados, fazer testes e conseguir um modelo com acerto em 90%. A proposta:
Reduzir fraude de 15% para 10%
Faturamento mensal: de R$ 1.275.000,00 para 1.350.000,00
Perdas com Fraude: de R$ 225.000,00 para 150.000,00
Custo do projeto: R$ 300.000,00 e um ROI em apenas 4 meses.
Será que é seguro afirmar um acerto de 90%? a resposta é não, porque estamos trabalhando com amostras, e estas estão sujeitas a variabilidade. Modelos de negócio mudam rapidamente, e isso pode influenciar o seu resultado, as
vezes de forma mais rápida do que sua atualização do modelo. Então, como fazer?
Existe vários métodos para responder essa questão. Mas uma forma simples seria prever uma variabilidade no resultado. De que forma? utilizar intervalos de confiança.
Intervalo de Confiança para a média (rodando várias vezes e usando a média), ou
Intervalo de Confiança para a proporção (rodando o modelo uma única vez)
Vamos supor que vamos rodar para a média, ou seja, 100 modelos criados – amostra (n). Intervalo de Confiança: 95%, Valor de Z = 1.96; Desvio padrão de 12,61; média de 88,2. Portanto, o acerto médio do modelo de Machine Learning deve variar entre 85,7 e 90,67, com um nível de confiança de 95%. O valor de intervalo de confiança para a média é +/- 2,47. Lembre-se que os dados de treino dos modelos devem ser escolhidos por funções que deem aos mesmos as mesmas chances de serem selecionados. Agora você não vai dizer para seu cliente que vai acertar 90%, você deve dizer que o acerto médio de machine learning que está sendo implementado é variádo entre 85,7 e 90,67. Para achar esse valor utilizamos a média + ou menos o 2.47. Esse seria do ponto de vista técnico a forma mais correta de apresentar o resultado de seu modelo e o provável desempenho do seu modelo.
Agora vamos utilizar o intervalo de confiança para a proporção, neste caso você vai criar o modelo apenas uma vez. Então você, por exemplo, pega 1000 registros (n) (dados de treino). Seu intervalo de confiança é de 95%; Valor de Z = 1,96; a proposrção de acertos é P(a) = 0,9 e P(e) = 0,1. Portanto, A proporção de acertos esperado da aplicação de Machine Learning na detecção de fraudes, é entre 88 e 92%, com
um nível de confiança de 95%. O valor de p é + ou - 0,018 ou arredondando para 0,02. Da mesma forma que no método da média, aqui você irá informar ao seu cliente que terá essa variação.