A quantidade de dados (informações) que é produzida diariamente em escala planetária, na atualidade, não encontra precedente na história humana. A IBM, em 2011, estimou essa soma, que hoje pode ser considerada em certos aspectos até conservadora, em 2,5 quintilhões de bytes a cada dia. Que significa isso? Nada ou muito; dependendo da nossa capacidade de processar essa enorme quantia de dados e transformar o que não passa de mera informação em conhecimento útil. E, por outro lado, que, indiscutivelmente entramos na era do Big Data.
A expressão da moda, Big Data, contempla os bancos de dados de tamanho bem maior dos que conhecemos ou estamos acostumados a lidar no dia a dia. Até, em razão disso, há certa glamourização do Big Data no ambiente corporativo, que seja no universo científico ou no mundo dos negócios. A tal ponto que o crescimento exponencial da quantidade de informação passou a ser vista por alguns como espécie de panaceia, servindo a mera massa de dados, por exemplo, para propostas que sugerem não serem necessárias novas teorias ou que o método científico pode ser abolido. Nada mais falso e ingênuo que isso, pois antes de exigir mais de nossos dados deveríamos exigir mais de nós mesmos. Devemos, nesse misto de capacidade de processamento de dados e julgamento humano, ter bem clara a fragilidade dos nossos pressupostos teóricos, pois esses podem embasar decisões que levam a resultados desastrosos.
O entusiasmo com o Big Data exige, mais que retórica de persuasão sobre a utilidade desses bancos de dados, de capacitação para o processamento de dados em grande escala e formação estatística para a extração de conhecimento do que, por si mesmos, não passam de meros dados, ainda que disponíveis em grandes quantidades.
Lidar com Big Data, racionalmente, hoje, significa saber lidar com a incerteza sobre o que pode ser concluído dos dados, quer seja uma previsão de qualquer coisa (resultado de eleição, vencedor de um campeonato de futebol, etc.) ou uma inferência científica derivada de experimentação empírica (dose de nutrientes no desempenho produtivos das culturas em agricultura, resposta a doses e drogas em tratamentos de doenças, etc.). Em essência, reviver Jacob Bernoulli, que, visionariamente, há cerca de 300 anos, quando publicou o livro Ars Conjectandi, estabeleceu o uso da teoria da probabilidade para explorar melhorar as propriedades das estatísticas quando mais observações eram tomadas. Ou prestar tributo à memória do pastor Thomas Bayes, que há 250 anos, definiu, em ensaio clássico, que os seres humanos aprendem com a experiência, atualizando suas crenças assim que mais dados são disponibilizados.
Os problemas tradicionais em estatística, em geral, envolvem muitas observações e poucos parâmetros medidos ou, inversamente, em tempos recentes, até por questão de custo elevado com experimentação, poucas observações e muito parâmetros medidos (como é exemplo a avaliação da expressão de muitos genes em um número limitado de amostras de tecido). Nesse último caso, é necessário que sejam testadas muitas hipóteses, para se tirar conclusões. E, apesar de consagrado nas ciências empíricas, a exemplo das agrárias, da saúde, etc., o uso de testes de significância estatística, nem sempre é adequado e nem se presta para uso indiscriminado. O padrão p< 0,05, usado a exaustão em trabalhos acadêmicos nas ciências experimentais, até por quem não consegue perceber o que esse número (0,05) significa na prática, simplesmente, nesse caso, nos diz que 1 em 20 das relações que não existem será declarada significativa naquele experimento. São as falsas descobertas, que depois se mostram erradas. Diminuir as chances das falsas descobertas é o grande anseio da ciência que lida com experimentação empírica e tira conclusões por indução ou inferência estatística. Não é por outra razão que a maioria das ditas descobertas científicas publicadas é falsa, como chamou atenção o polêmico artigo do médico John P. A. Ioannidis, publicado em 2005 (PLoS Med 2 (8):e124), referente a descobertas positivas apresentadas em periódicos da área médica (2/3 não conseguiram ser reproduzidas em laboratório).
Nunca tivemos tanta informação disponível ao nosso alcance. Mas, mais informação também pode significar mais problemas. Por isso, recomenda-se: mais Jacob Bernoulli e mais Thomas Bayes, para lidarmos com Big Data.