Ciência de dados no Gerenciamento de Áreas Contaminadas

Ciência de dados no Gerenciamento de Áreas Contaminadas

Diferentes telas exibindo gráficos
Confira dois dos 11 trabalhos apresentados na 12ª Conferência Internacional sobre Remediação de Compostos Clorados e Recalcitrantes, organizado pelo Battelle Memorial Institute.

OPytimization: UMA BIBLIOTECA DESENVOLVIDA EM PYTHON PARA REALIZAR OTIMIZAÇÃO ESPACIO-TEMPORAL EM LONG-TERM MONITORING SITES

Projeto realizado por Atila Ferreira Pessoa e Vitor Ariza Malagutti. 

Contexto do Projeto: 


 Considerando os altos custos envolvidos no monitoramento de águas subterrâneas em Long Term Monitoring Sites (LTMs) e a dificuldade de reduzir o número de pontos de monitoramento com uma abordagem orientada a dados, a EBP Brasil desenvolveu uma ferramenta de análise quantitativa chamada de OPytimization.
Ferramenta que permite a avaliar o grau de complexidade temporal e espacial de cada site, produzindo resultados site specifics, que tem como objetivo resolver problemas de otimização de programas de monitoramento. Para o desenvolvimento dessa biblioteca, foram consideradas metodologias propostas pelo ITCR e USEPA.
 
A ferramenta pode ser dividida em 3 grandes blocos com finalidade específica, sendo o primeiro voltado para análise de autocorrelação em séries temporais, utilizando a função matemática variograma com o objetivo de definir a frequência ótima de monitoramento evitando a coleta de dados redundantes. Essa análise pode ser realizada para um único poço individualmente ou para um conjunto de uma mesma área, sendo necessária a normalização dos resultados para o segundo caso. 

Com intuito de identificar poços que apresentam séries temporais com tendência de aumento associado a um nível de confiança predeterminado, foi utilizado o método Mann-Kendall, que identifica tendências em séries temporais baseado na interpretação de 3 fatores: Estatística ‘S’, fator de confiança (CF) e o coeficiente de variação (COV). 
Por fim, a implementação da otimização espacial através da identificação de poços espacialmente redundantes, foi desenvolvida com base no método de decomposição do espaço métrico em polígonos de Voronoi acoplados a interpoladores geométricos baseados no inverso da distância (IDW). 

Dessa forma, além das concentrações medidas, também são gerados valores de concentrações estimadas com base na concentração dos vizinhos naturais de cada polígono. A comparação entre a concentração estimada e a concentração real é realizada através do cálculo do Slope Factor (SF), que variam entre o intervalo de 0 e 1, onde poços com SF iguais a 0 representam elevado grau de redundância e poços com SF iguais a 1, um ganho de informação espacial, indicando que o poço deve ser mantido no plano de amostragem.  

imagem 1
 
Considerações: 

Com o intuito de validar os resultados da otimização, dois modelos de estimativa geoestatísticos foram construídos usando todo o conjunto de dados e o conjunto otimizado para um site com aproximadamente 200 pontos de monitoramento, onde foi alcançada uma redução de 30% no programa de monitoramento original. 
 
De forma qualitativa, foi possível identificar que os hotspots e limites da pluma permaneceram os mesmo com apenas 70% dos poços da malha. Quantitativamente, a estimativa de diferença de massa entre os dois cenários foi inferior a 2%, validando a estratégia de monitoramento.
 imagem 2

--------------------------------------------------------------------------------------------


DATA SCIENCE: UMA NOVA ABORDAGEM PARA O USO DE FERRAMENTAS DE ALTA RESOLUÇÃO

Projeto realizado por Atila Ferreira Pessoa e Victor Vanin Sewaybreaker. 

Contexto do Projeto: 


Ferramentas de alta resolução como MiHPT, OiHPT, UVOST e LIF geram um grande volume de dados relacionados à presença de contaminantes (como os sinais obtidos pelos detectores PID, FID e XSD), propriedades petrofísicas (como Condutividade Elétrica e pressão de injeção do HPT) além de parâmetros operacionais (como a taxa de avanço e a temperatura de ponteira) com alta resolução ao longo do eixo vertical. 

imagem 3

Dessa forma, com o objetivo de extrair o máximo de informação possível desse conjunto de dados, a equipe da EBP Brasil desenvolveu um framework com foco no pré-processamento de dados brutos, compreensão da correlação entre as variáveis medidas e identificação das características mais sensíveis para determinação de concentrações de contaminantes em fase dissolvida na água subterrânea.   

imagem 5

Ao lidar com dados brutos de naturezas distintas, um problema muito comum é a presença de ruído nos sinais, e não seria diferente com os sensores MiHPT. Visando corrigir variações de baseline, como os ilustrados acima, foi implementada uma rotina de pré-processamento utilizando pontos de ancoragem para criar uma função polinomial que, após ser subtraída do sinal original, retorna a curva processada. Essa etapa é de extrema importância para elaboração de modelos matemáticos, uma vez que dados brutos com a presença de ruídos podem levar a resultados espúrios.  
 
Análise exploratória de dados

Com o objetivo de resumir o conjunto de dados e aumentar o conhecimento a respeito do fenômeno, foi realizada a etapa de análise exploratória de dados (EDA). Dessa forma, através da análise univariada, foram definidas as medidas resumo e os parâmetros estatísticos descritivos da distribuição amostral.  

Já a análise bivariada, como o gráfico pairplot abaixo, contém informações sobre as correlações observadas para cada par de variáveis presentes no dataset.

imagem 5

Imagem6

Análise Estatística Multivariada e Geoestatística

A análise estatística multivariada com a Análise de Componentes Principais (PCA) possibilitou a definição das varáveis mais sensíveis para explicar a variabilidade das concentrações e avaliar como cada um dos sites utilizados no estudo se distribuem dentro desse espaço multivariado.  
 
Com base nos resultados obtidos ao longo das etapas mencionadas anteriormente, o sinal do XSD foi definido como a variável que apresentou a maior correlação com concentrações de águas subterrâneas para investigação em áreas contaminadas por etenos clorados. Com esse entendimento, o sinal XSD foi utilizado para gerar modelos 3D usando algoritmos como a krigagem ordinária.  

 Próximos passos com modelos de aprendizagem supervisionada

Os próximos passos relacionados ao tema envolvem o treinamento de modelos de aprendizado supervisionado, que tem o objetivo de prever concentrações dissolvidas em águas subterrâneas com base nos dados obtidos com o auxílio da ferramenta MiHPT, por exemplo, PID, FID, XSD, EC, HPT, Temperatura e Rate of Push. 
 
A motivação para o treinamento de modelos de aprendizado de máquina deriva do fato de que correlações entre sinais elétricos e concentrações são conhecidas, o que torna necessária a incorporação de outros parâmetros registrados em campo para a construção de modelos de regressão multivariados.
 imagem 7
 

 

Tags: