O tema de hoje pode ser muito familiar para alguns e um pouco distante para outros. Mas segue uma introdução básica sobre:
A cada 4 anos rola um campeonato de futebol no mundo, chamado copa do mundo. Isso gira comércio, turismo, construção de estádios, etc. Mobiliza o mundo e gira bilhões na economia. Várias empresas tentam entrar nesse setor, com venda de camisetas, passagens, ingressos, etc. Uma das empresas que se aproveita do evento é a Panini. A Panini é a empresa que fabrica, embala e distribui o álbum e as figurinhas oficiais da copa do mundo.
O álbum da copa possui ao todo 682 figurinhas sendo que dessas, 50 são brilhantes. A impressão é feita de tal forma que as figurinhas sejam equiprováveis. Isso quer dizer que a probabilidade de se tirar o Neymar, ou uma brilhante, ou um jogador desconhecido do Irã é exatamente a mesma. Em resumo, a Panini imprime a mesma quantidade de figurinha de todos os jogadores. Para comprar essas figurinhas, um modo possível é no mercado primário: adquire-se figurinhas por pacotes (cada pacote possui 5 figurinhas e custa 2,00, o equivalente a 40 centavos por figurinha).
Algo engraçado e peculiar das figurinhas é que elas possuem valor monetário e são escassas (não se pode ter infinitas figurinhas). Com isso, algumas leis econômicas se aplicam ao mundo desconhecido das figurinhas. E a primeira consequência direta é o mercado secundário: Há pessoas que compram figurinhas no mercado primário e vendem no secundário, mais cara. Por exemplo, há quem troque brilhante por 15 ou 20 figurinhas não brilhante (o que não faz sentido algum, visto que elas são equiprováveis). Há quem venda brilhante por R$ 1,50 e não brilhante por R$ 0,50. Há várias formas de se negociar. Além de depender muito da região: no Brasil, a figurinha de um jogador brasileiro costuma valer mais do que a figurinha de um jogador desconhecido do Irã. Há quem troque apenas figurinha do brasil por outra figurinha do Brasil. Mas no Irã, talvez, a tendência e o desejo por uma figurinha de um jogador do próprio país pode inverter e ser mais valorizada. Enfim…é uma zona total de desorganização e ineficiência de mercado (novamente, visto que elas são equiprováveis).

Isso já mostra um ponto muito difícil de aceitar: Economia é uma ciência humana. Por mais que as figurinhas sejam equiprováveis, eu não trocaria uma do Neymar por uma de um brother X do Irã (sem preconceito ao Irã. Apenas escolhi um país sem histórico de bom futebol). Rola sentimentos no jogo, no mercado e isso faz perder a lógica de preços. Muitas vezes sabemos disso, mas vamos na onda do mercado e, mesmo sabendo de tudo, trocamos 10 figurinhas por uma outra que nos falta. Sacou a idéia?

E o mesmo acontece com o mercado acionário. Há quem prefira ações de uma empresa qualquer e, por mais que as análises numéricas mostrem um valor, há quem prefira comprar mais caro (ou vender mais barato). A economia tem psicologia  envolvida. E supondo que não há duas pessoas no mundo que pensem exatamente igual (hipótese que acho possível de se admitir), fazer previsões de mercado pode ser algo difícil. Pode ser que o mercado inteiro negue as contas frias e cruas de uma planilha de Excel. Por exemplo, a crise de 2008 mostra que o mercado foi contra os números e isso deu merda (Não disse que sempre vai dar merda, mas nessa daí deu.). Recomendo o filme “Big Short” para compreender melhor sobre esse fenômeno.

Então, mesmo que sejam apenas figurinhas, entender esse mercado dá trabalho. As previsões podem não ser certas. A lógica pode falhar e as contas, por mais que corretas, podem ir contra o mercado. Mas não é por causa disso que deixaremos de fazer, né?
Primeiro…vamos supor um personagem fictício que irá nos acompanhar em nossa aventura. Chamarei ele de Gau e ele será nosso cobaia sempre que possível.
Gau possui um álbum e deseja completa-lo. Obviamente ele deseja gastar a menor quantidade de dinheiro com isso. Então, faz sentido Gau comprar inicialmente 137 pacotinhos, gastando para isso 274 reais e obtendo 685 figurinhas (3 a mais do que o necessário). Se o universo se alinhar e Gau tiver uma sorte esplêndida, ele terá completado as 682 figurinhas e terão sobrados outras 3 figurinhas repetidas. No entanto, é extremamente difícil isso ocorrer. É muito provável que apareça muito mais de 3 figurinhas repetidas. Mas quantas vão aparecer? Ou melhor, é mais provável de se ter quantas repetidas?
Para responder a essas perguntas, vamos utilizar um método muito eficiente e muito simples, que lida com números aleatórios. É o método de Monte Carlo. Esse método consiste em estressar uma situação via simulação analisando vários cenários possíveis
Vou utilizar o exemplo dado pelo Wikipédia (depois leia tudo lá para fazer mais sentido). Nesse exemplo, desejamos mensurar a área de um lago que está em um parque cuja área total é 1000 m². O desenho é mostrado abaixo:
Para isso a gente vai fazer o seguinte: iremos marcar um ponto aleatório nesse lago. Vamos ver onde ele vai cair:

Só esse ponto não quer dizer muita coisa. Ele caiu na grama, mas poderia cair no lago e, independente disso, nenhuma informação útil poderá ser concluída.

Vamos colocar mais alguns pontos:

 

Repare que agora, dos 33 pontos desenhados, 8 estão no lago. Como os pontos foram colocados ali de forma aleatória, é de se esperar que a área do lago seja 8/33 da área do parque. Isso acarretaria em 242,42 m². No entanto, pode ser que estejamos errados e que, por sorte ou azar, os pontos estejam mais concentrados no lago ou na grama. Mas é fácil ver que quanto mais pontos utilizarmos, mais certo estaremos do resultado. Entendeu a ideia?

Vamos colocar 100 pontos nessa figura:

 

Agora, dos 100 pontos, 32 estão dentro do lago. Isso nos permite concluir que a área do lago é próxima a 32/100 da área do parque. Ou seja, a área do lago seria em torno de 320 m². Fez sentido? E esse último resultado é, sem dúvida, mais confiável do que todos os anteriores. Agora, imagina se fizermos a análise com 1.000 ou 10.000 pontos. O valor que encontrarmos será muito, mas muito próximo da área real do lago. Ou seja, quanto mais pontos inserirmos, menor o erro associado ao valor desejado.
Levando esse raciocínio para as figurinhas, vou supor no Excel 685 números aleatórios entre 1 e 682. Com isso, teremos uma simulação de uma pessoa que comprou 685 figurinhas. Para a brincadeira ficar divertida, eu vou supor 20 casos de 20 pessoas diferentes, de 20 possíveis lugares diferentes, que compraram as figurinhas. Do mesmo modo que um ponto no lago ou na grama não nos diz muito sobre a área do lago ou a área da grama, uma única simulação de uma única pessoa não nos dirá muito acerca do que queremos analisar. Infelizmente, processos aleatórios e estatísticos funcionam assim. Anyway, O resultado da simulação está na tabela abaixo:
Fizemos 20 simulações. Provavelmente, nesse cenário, a primeira pessoa a completar o álbum é a pessoa da simulação 9, pois possui 59 brilhantes, onde 24 são repetidas. Lembrando que cada brilhante pode ser trocada por mais de uma não brilhante no mercado secundário (vulgo troca de figurinhas). No outro oposto, a pessoa da simulação 18 teria mais dificuldade ao completar o álbum, visto que possui possui apenas 37 brilhantes e dessas 10 são repetidas
Vamos simular outras 20 pessoas para ver o que acontece. Veja:

Repare que na média os dados ficaram bem parecidos. Nessa segunda leva de outras 20 simulações, apareceu um sortudo (pessoa 18) que conseguiu 66 brilhantes e um azarado (pessoa 10) com 36 brilhantes. Mas olha que ironia: Por mais que o azarado apareceu na segunda leva de simulações, a média do número de brilhantes ficou maior em duas unidades. É como se, na prática, cada uma das 20 pessoas da segunda leva de dados tivessem duas brilhantes a mais do que cada uma das 20 pessoas da primeira leva de simulações. Doidera, né?

Isso me lembra um teorema que é importante para o usos de médias. Imagina a média entre os números 3, 5 e 7. A resposta é 5, pois a soma deles é 15 e quando dividido por três dá 5. Até ai nada de novo. Agora vamos somar 2 a cada um desses números. Eles virariam 5, 7 e 9. Repare que a média nesse caso é 7, pois a soma dos três números é 21 e quando dividido por 3 temos 7 de reposta. Ou seja, ao somar um certo valor x em todos os números de um conjunto, a nova média será x unidades maior.

Se não entendeu vai ficar fácil. Imagina que um grupo de amigos resolva calcular a média de suas idades no dia primeiro de janeiro de 2018. Vamos supor que a média dessas idades é 26. Se essa reunião ocorresse novamente no primeiro dia do ano de 2026 (8 anos depois), a idade de todo mundo, sem exceção, será acrescida em 8 (certo?). É lógico e fácil isso. Supondo agora que os mesmos amigos que formaram a média na primeira reunião também são os mesmos que formariam a média da segunda, então a média dessas idades será também acrescida em 8. Logo, a média seria 34 (26+8).

Matematicamente, a primeira situação é descrita por:

Somando k unidades em todos os números que compõem a média, temos

E já que estamos falando de propriedades mais avançadas de média, lembrei de mais uma que com certeza você já teve contato. Imagine que nosso personagem quase esquecido, Gau, tirasse as notas 4, 5, 6 em três provas. A soma dessas notas é 15 e quando dividido por três resulta em 5. Ou seja, a média das notas dessas três provas é 5. Se Gau fez uma quarta prova e tirou 5, essa nota, por ser exatamente igual a média, não alteraria o novo valor da média das provas. Isso por que a media é uma tendência de resultados (se não se lembra disso, leia o texto anterior) e quando um novo número dá exatamente igual a uma tendência, não tem porque (ou por que, to na dúvida agora) essa tendência mudar. Faz sentido? Para provar vamos fazer a média de 4, 5, 6 e 5. A soma dá 20 e dividido por 4 resulta em 5. E se fizer uma quinta prova e tirar 5, a soma seria 25 e quando dividido por 5 daria 5 novamente. E se fizesse uma sexta prova cuja nota é 5, a soma é 30 mas dividido por 6 dá 5 again. Entendeu?

Matematicamente, se:

então somando k parcelas iguais a média, isso não muda o valor média.

Repare que dividimos por n+k devido ao fato de já haver n elementos na média e depois inserimos k elementos na mesma média, passando a ter agora n+k elementos.

Enfim, retomando ao problema da figurinha, e sabendo que agora você é expert plus mais mais em método de Monte Carlo, sabemos que 20 simulações é muito pouco para um evento de 682 figurinhas. Você concorda? Repare a diferença nos valores de figurinhas faltantes na primeira e na segunda série de simulações. É grande (2,5 figurinhas dentre aproximadamente 250 – erro de 1%).

Normalmente os erros aparecem bem explicitamente quando as distribuições não são equiprováveis. Por exemplo, a altura de uma pessoa, o tamanho de um pé, a resposta de pesquisa de satisfação de clientes, etc. Nesses casos é muito comum ter fugas acentuadas da média pois as distribuição de probabilidade não são iguais. Há uma curva muito engraçada que Gauss trabalhou: é a distribuição normal, também conhecida como a curva do sino (daqueles sinos de igreja, saca? Coisa de velho).

LEGENDA: Peguei do google (quem fez a imagem favor não processar. Thks)

Numa lida rápida no wikiédia, vi que o primeiro notável a utilizar essa curva foi Moivre, um brother que queria desenhar em um gráfico a quantidade de cara e coroa de alguns lançamentos. Enfim, isso é curiosidade. O fato é que essa curva é protagonista de um teorema que nós vamos verificar logo logo de maneira intuitiva. O teorema é chamado de Teorema do Limite Central, que é base de toda a probabilidade e estatística. Ele diz o seguinte: “o teorema central do limite afirma que a média de uma amostra de  elementos de uma população tende a uma distribuição normal”.

Será que dá pra verificar essa curva na distribuiçõ de figurinhas? Antes, para o negócio ficar chique, vou fazer uma nova simulação, mas não com 20. Não com 50. Não com 100 e nem 500. Também não 1000, mas sim 10.000 simulações. Dez f*cking mil simulações, que levou um tempo de 36 horas rodando no excel e que fez uso insano do processador do pc. Olha só que irado.Fazendo a análise para essas 10.000 simulações, veja só no que chegamos:

Repare que além da média coloquei uma linha chamada desvio padrão, mas isso é cenas de outro texto. Em resumo, entre a média e a média mais o desvio padrão encontram-se 34,1% dos casos (veja a figura anterior da normal.).

Uma medida para saber se os dados fazem sentido é calcular a porcentagem de repetidas em relação ao total de figurinhas. O resultado deve ser o mesmo para as brilhantes, para as não brilhantes e para todas. Para não brilhantes, a porcentagem de repetida é 234,05/634,76 = 36,87%. Já a porcentagem de repetidas brilhantes será 18,50/50,24 =  36,82%. Repare que, no mundo ideal, esses dois números deveriam ser iguais. Mas essa diferença de valores se deve ao fato de serem feitas “apenas” 10.000 simulações. Caso fosse 100.000 ou 1.000.000, é muito provável que esses dois números fossem  bem mais próximos. Esses dois números, na verdade, são indicadores de perfeição das simulações e devem ser sempre considerados para, em caso de erro, não validar os dados.

Plotando um gráfico do número de figurinhas faltantes em cada uma das 10.000 simulações:

O gráfico ficou muito próximo de uma normal (Respeitando o teorema do limite central). Sobre essas distribuições de dados, temos que em 10.000 simulações, a média de números faltantes de figurinhas é 249,55, a moda de figurinhas faltantes é 251 e a mediana é 250.

Iremos parar a análise por aqui. O objetivo de aprendizado foi cumprido. Você aprendeu muita coisa nesse texto.

Não vamos simular trocas de figurinhas entre as pessoas, nem análise de qual figurinha saiu mais, qual saiu menos, etc. Na verdade as figurinhas foi só um pretexto para você aprender matemática em algo do mundo real. Espero que tenha gostado!

Obrigado pela atenção, e sorry pelo tamanho do texto.

Postagens Recentes