Mais

A estabilidade dos modelos randomForest após aumentar as variáveis ​​preditoras


Com referência às postagens: Incorporação de dados de terreno para prever a cobertura do dossel usando randomForest em R e Classificação Random-Forest de imagens de 10 cm para distribuição de espécies em R (sem formas de pontos)

Eu gostaria de saber como e por que um modelo para mapear áreas de dossel vs. áreas sem dossel, melhorar se várias variáveis ​​preditoras forem adicionadas, tais como:

  • Índices de vegetação
  • inclinação
  • elevação
  • aspecto
  • múltiplas bandas

Se eu adicionar várias variáveis ​​preditoras ao conjunto de treinamento, terei que prever o modelo sobre uma pilha raster que consiste nas mesmas camadas, certo?

Portanto, posso incorporar bandas do Landsat também (depois de reduzir para 5,8 m) com minhas bandas LISS IV, como parte dos dados de treinamento e da pilha raster na qual o modelo fará a previsão?


Uma das coisas legais sobre floresta aleatória é que eles sondam em cada nó um subconjunto aleatório de variáveis. Os que fornecem a divisão com melhor entropia (ou outro critério) serão mantidos, enquanto outros serão descartados e possivelmente testados em um nó subsequente / diferente. Em palavras muito simples, se uma variável não fornecer nenhuma informação sobre a divisão (por exemplo, dossel vs sem dossel) não será usada no modelo final. Do outro ponto de vista, uma variável pode se tornar informativa após uma divisão em outra variável e, possivelmente, essa variável será útil no momento da previsão.

Em princípio, adicione todas as informações que você puder adicionar (melhor se você tiver o conhecimento prévio que de alguma forma depende das saídas do seu problema). Certamente as bandas e imagens do Landsat se correlacionam bem com a presença de dossel, portanto, adicione-as.

Pessoalmente, uso classificadores RF com milhares de variáveis. Nessas situações, você só precisa se certificar de que emprega muitas árvores (evita overfitting, em princípio, quanto mais você usar, melhor) e que a cada nota você testa indicativamente sqrt (#variables) para explorar adequadamente sua característica espaço. Em relação à fração de exemplos de treinamento para usar no bagging, nunca observei diferenças significativas na precisão do teste. O tempo de treinamento pode ser melhor, entretanto.

Em relação ao seu segundo ponto sim, todas as variáveis ​​que você usa no momento do treinamento têm que estar presentes no momento do teste (previsão). Na mesma ordem, com a mesma escala. (Observe que a escala da variável em si não é importante para a floresta aleatória, mas a distribuição dos dados de treinamento e teste deve ser obviamente a mesma!)

Em relação à literatura, a melhor coisa que já li sobre RF é este ("O") tutorial de RF. É principalmente voltado para aplicativos de visão computacional (em particular para o reconhecimento de partes do corpo kinect que eles desenvolveram), mas é uma leitura muito fácil e agradável. Depois disso, você deve entender toda a coisa de RF. Para a aplicação de sensoriamento remoto IDK, talvez apenas navegue por periódicos acadêmicos. Certamente, uma busca adequada com palavras-chave corretas fornecerá boas referências.

EDITAR: provavelmente você terá interesse apenas na parte de classificação do tutorial acima, mas sugiro que leia na íntegra, é muito bom.


Avaliação da precisão e estabilidade dos métodos de seleção de variáveis ​​para modelagem florestal aleatória em ecologia

A modelagem de floresta aleatória (RF) surgiu como um método de aprendizagem estatística importante em ecologia devido ao seu desempenho preditivo excepcional. No entanto, para conjuntos de dados ecológicos grandes e complexos, há orientação limitada sobre métodos de seleção de variáveis ​​para modelagem de RF. Normalmente, um conjunto pré-selecionado de variáveis ​​preditoras é usado ou procedimentos passo a passo são empregados que removem variáveis ​​iterativamente de acordo com suas medidas de importância. Este artigo investiga a aplicação de métodos de seleção de variáveis ​​a modelos de RF para prever a provável condição de fluxo biológico. Nosso conjunto de dados motivadores consiste na condição boa / ruim de n = 1365 locais de pesquisa de riachos da Avaliação Nacional de Rios e Riachos de 2008/2009, e um grande conjunto (p = 212) de recursos de paisagem do conjunto de dados StreamCat como preditores potenciais. Comparamos dois tipos de modelos de RF: um modelo de conjunto de variáveis ​​completo com todos os 212 preditores e um modelo de conjunto de variáveis ​​reduzido selecionado usando uma abordagem de eliminação reversa. Avaliamos a precisão do modelo usando a estimativa out-of-bag interna de RF e um procedimento de validação cruzada com dobras de validação externas ao processo de seleção de variável. Também avaliamos a estabilidade das previsões espaciais geradas pelos modelos de RF para mudanças no número de preditores e argumentamos que a seleção do modelo deve considerar tanto a precisão quanto a estabilidade. Os resultados sugerem que a modelagem de RF é robusta para a inclusão de muitas variáveis ​​de moderada a baixa importância. Não encontramos nenhuma melhora substancial na precisão da validação cruzada como resultado da redução variável. Além disso, o procedimento de eliminação reversa tendeu a selecionar muito poucas variáveis ​​e exibiu vários problemas, como estimativas de precisão fora do saco enviesadas para cima e instabilidades nas previsões espaciais. Usamos simulações para apoiar e generalizar os resultados da análise de dados reais. O principal objetivo deste trabalho é elucidar questões de viés de seleção de modelo e instabilidade para ecologistas interessados ​​em usar RF para desenvolver modelos preditivos com grandes conjuntos de dados ambientais.

Esta é uma prévia do conteúdo da assinatura, acesso através de sua instituição.


Modelos preditivos usando randomForest regressão para padrões de distribuição da meiofauna em águas islandesas

A troca de águas polares frias do norte e águas quentes do Atlântico Norte do sul é limitada pela Cadeia Groenlândia-Islândia-Escócia (GSR), que então pode atuar como uma barreira para a troca faunística do Ártico profundo e das bacias profundas do Atlântico. Nós investigamos a densidade da meiofauna e os padrões de distribuição de diferentes regiões ao norte e ao sul do GSR em profundidades de água entre 307 e 2749 m. Um total de 84 amostras multicore foram examinadas coletadas durante o projeto IceAGE1 (Animais marinhos da Islândia: Genética e Ecologia) no verão de 2011. Usamos um gradienteForest abordagem para avaliar a magnitude da mudança composicional e os limites de mudanças notáveis ​​na comunidade ao longo das variáveis ​​ambientais. randomForest A regressão foi aplicada para prever a meiofauna em uma escala espacial contígua com um conjunto de 23 variáveis ​​ambientais. A densidade da meiofauna variou entre 187 e 3.185 indivíduos por 10 cm 2 com as maiores densidades observadas ao norte do GSR. Nematoda foi o táxon mais abundante na comunidade da meiofauna, seguido por Copepoda e Nauplii. Na Bacia de Irminger, Gastrotricha foi o terceiro táxon mais abundante, enquanto em todas as outras regiões, Ostracoda foi o terceiro mais abundante. O suprimento de alimentos, a profundidade da água, o oxigênio do fundo do mar e a atividade hidrográfica, sendo as variáveis ​​mais importantes para as mudanças na comunidade, explicam até 86% da variação observada nas comunidades da meiofauna.

Esta é uma prévia do conteúdo da assinatura, acesso através de sua instituição.


Introdução

Ecossistemas marinhos vulneráveis ​​(VMEs) são ecossistemas em risco potencial dos efeitos da pesca ou outros tipos de perturbação, conforme determinado pela vulnerabilidade de seus componentes (por exemplo, habitats, comunidades ou espécies) (FAO, 2009). Uma série de resoluções da Assembleia Geral das Nações Unidas foram aprovadas que exigem que os Estados-nação e as organizações de gestão da pesca identifiquem VMEs dentro de sua jurisdição como uma das etapas para sua proteção (ver Ardron et al., 2014 para detalhes). Espécies ou grupos taxonômicos foram identificados que podem ser usados ​​como indicadores da presença de VMEs em regiões oceânicas específicas, a fim de auxiliar as agências responsáveis ​​por sua proteção [por exemplo, a Organização Regional de Gestão de Pesca do Pacífico Sul (SPRFMO) na região do Pacífico Sul & # x02014Parker et al., 2009]. Esses taxa possuem características que os tornam particularmente vulneráveis ​​à perturbação (como taxas de crescimento lento, longevidade, maturidade tardia e fragilidade) e incluem espécies que formam características estruturalmente complexas, como recifes de coral e agregações de esponja, que fornecem estrutura tridimensional associada com diversas comunidades e áreas discretas de significância funcional (por exemplo, habitat necessário para espécies raras, ameaçadas ou em perigo de extinção do habitat e / ou a sobrevivência, função, desova / reprodução ou recuperação de estoques de peixes e estágios de história de vida particulares) ( FAO, 2009).

A modelagem de adequação de habitat (às vezes chamada de modelagem de distribuição de espécies) é um método para prever a adequação de um local para uma espécie ou grupo de espécies, com base em sua relação observada com as condições ambientais. A modelagem de adequação de habitat está sendo usada cada vez mais para prever os padrões de distribuição dos táxons indicadores de VME no mar profundo, onde os dados são particularmente esparsos, e tais modelos são considerados úteis para a gestão do ecossistema marinho (Ross e Howell, 2013 Reiss et al., 2014). Modelos de adequação de habitat foram produzidos para vários táxons de águas profundas (ver revisão por Vierod et al., 2014), mas as distribuições previstas dependem de como os modelos são construídos. A quantidade, qualidade e distribuição dos registros de presença de espécies, a disponibilidade de registros de ausência verdadeira e as variáveis ​​preditoras ambientais usadas podem influenciar a confiabilidade dos modelos (Ara & # x000FAjo e Guisan, 2006 Guisan et al., 2006). Esforços recentes para melhorar a precisão dos modelos de adequação de habitat e, portanto, sua utilidade para a gestão do impacto da pesca em VMEs, incluíram o uso de dados de abundância (em oposição a confiar apenas em dados de presença-ausência), validação de modelo de verdade terrestre , modelagem de conjunto e estimativas de incerteza do modelo (Rooper et al., 2014, 2016 Anderson et al., 2016a, b Robert et al., 2016). Apesar dessas melhorias, os modelos às vezes ainda são considerados inadequados para propósitos de manejo porque eles estão em resoluções espaciais que são muito grosseiras ou porque eles preveem a presença de taxa de indicadores de VME, mas não do próprio VME. Esses problemas podem ser reduzidos se dados de multifeixe de alta resolução e imagens do fundo do mar forem usados ​​na construção de modelos de adequação de habitat (por exemplo, Howell et al., 2011 Rengstorf et al., 2012, 2013, 2014).

O objetivo do presente estudo foi produzir modelos de adequação de habitat de alta resolução para táxons indicadores VME, e habitat VME, em montes submarinos da Cadeia de Montes Marinhos de Louisville na escala de montes submarinos individuais. Esses montes submarinos estão localizados dentro da Área de Convenção SPRFMO e alguns são objeto de pesca de arrasto de fundo para Orange roughy pela pesca da Nova Zelândia. SPRFMO tem medidas de proteção em vigor para VMEs, mas a eficácia dessas medidas foi questionada (por exemplo, Penny e Guinotte, 2013), e medidas adicionais e alternativas estão sendo buscadas e consideradas pelas partes interessadas. Atualmente, grandes fechamentos espaciais de latitude / longitude de 20 min são implementados em alguns montes submarinos para a pesca na Nova Zelândia, com base na história de pesca passada ou na presença de um VME detectado pela captura acidental de taxa indicadora de VME excedendo um determinado limite (Parker et al. , 2009 Penney et al., 2009). Uma possível medida alternativa de manejo é fechar pequenas áreas em montes submarinos individuais que têm, ou provavelmente terão, VMEs, e permitir a pesca em outras partes do monte submarino. Modelos de adequação de habitat em escala de montes do mar de alta resolução para taxa de indicadores de VME ajudariam no projeto de tais medidas de fechamento espacial dentro dos montes do mar.

No presente estudo, construímos esses modelos para uma espécie de coral rochoso formador de recife, Solenosmilia variabilis e dois táxons que são considerados indicadores úteis para a ocorrência do habitat do recife de coral, estrela do mar brisingida e crinóides (Parker et al., 2009). O presente estudo baseia-se no trabalho anterior de modelagem de adequação de habitat na região (Anderson et al., 2016a, b), e coletivamente esses modelos podem ser usados ​​para informar o planejamento de gestão espacial para proteger VMEs nos mares ao redor da Nova Zelândia, incluindo os principais fundos regiões de arrasto dentro da Área da Convenção SPRFMO.


Parte III. Métodos para lidar com a colinearidade

Não pensamos que o problema da colinearidade possa ser resolvido, por razões lógicas: sem compreensão ecológica mecanicista, as variáveis ​​colineares não podem ser separadas por meios estatísticos. No entanto, podemos esperar que algumas abordagens sejam superiores no que diz respeito a previsão e ajuste de modelo robusto. Como regra geral, uma boa estratégia é selecionar variáveis ​​que a) sejam ecologicamente relevantes, b) sejam viáveis ​​para coletar dados ec) estejam mais próximas do mecanismo (na sequência variáveis ​​recurso-direto-indireto-proxy: Harrell 2001, Austin 2002). Então, se o método estatístico sugere a exclusão de uma variável ecologicamente razoável ou importante, destaque deve ser dado à ecologia. Apesar dessa seleção cuidadosa, ainda podemos acabar com um conjunto de variáveis ​​colineares, seja porque existem várias variáveis ​​ecologicamente importantes para um fenômeno em estudo (por exemplo, composição química da forragem), ou porque ainda não sabemos quais dos preditores são importante. O principal desafio agora é extrair ou combinar variáveis ​​de forma significativa, conforme explorado nas seções a seguir.

Para obter detalhes técnicos, tipos de resposta e variáveis ​​de previsão que podem ser usados, referências-chave e estudos de exemplo em ecologia, consulte o material suplementar do Apêndice 1.1. Uma vez que o domínio dos métodos de regressão é vasto, nos concentramos nos métodos comumente usados ​​ou que provavelmente seriam promissores na revisão e o estudo de caso a seguir não é exaustivo. Todo o código para geração de dados está disponível no material suplementar Apêndice 2 e os leitores interessados ​​podem aplicá-lo a qualquer método que deixamos de cobrir. O material suplementar Apêndice 1.3 contém um breve esboço de uma série de abordagens excluídas.

Detectar: ​​diagnósticos

Quando as variáveis ​​são colineares? A literatura estatística oferece várias quantificações de colinearidade (Tabela 1), sendo a mais comum o coeficiente de correlação par a par (r), o índice de condição (a raiz quadrada da razão de cada autovalor para o menor autovalor de X), o fator de inflação da variância (VIF) e sua versão generalizada (gVIF: Fox e Monette 1992) e as proporções de decomposição da variância (VD , que fornece informações mais específicas sobre a contribuição dos autovetores para a colinearidade: Belsley et al. 1980, Brauner e Shacham 1998). Embora esses métodos calculem um valor por par de variáveis ​​(com exceção do VD, onde o número de valores calculados é igual ao quadrado do número de variáveis), também existem abordagens que estimam um único valor para descrever o grau de colinearidade total conjunto de dados ('índices de conjunto de variáveis'). Mais comumente usados ​​são os determinantes da matriz de correlação (det (R)) e o número da condição (CN, a raiz quadrada da razão entre o maior e o menor autovalor de X) Existe alguma confusão na literatura a respeito dos termos índice de condição e número de condição. Às vezes, o índice de condição é definido como a proporção do maior para o menor autovalor, em vez do número da condição. Seguimos aqui as definições de Rawlings et al. 1998). O código para todos eles é fornecido no Apêndice 2 do material suplementar.

Método Descrição Limiar
Valor absoluto dos coeficientes de correlação (| r |) 1 Se as correlações de pares excederem um limite, a colinearidade é uma sugestão alta para os limites: 0,5–0,7 & gt0.7
Determinante da matriz de correlação (D) Produto do valor próprio, se D estiver próximo de 0, a colinearidade é alta, se D estiver próximo de 1, não há colinearidade nos dados
Índice de condição (CI) 2 Medida de gravidade de multicolinearidade associada a jos valores próprios, os ICs de uma matriz de correlação são as raízes quadradas das razões do maior valor próprio dividido por aquele em foco, todos os ICs iguais ou maiores que 30 (ou entre 10 e 100?) são 'grandes' e críticos & gt30
Número da condição (CN) Resumo geral de multicolinearidade: índice de condição mais alto & gt30
Kappa (K) CN ao quadrado 5
Proporções de decomposição de variância (VD) 1,3 Proporções de variância de eua variável atribuível ao jo autovalor nenhuma variável deve atribuir mais de 0,5 a qualquer autovalor
Fator de inflação de variância (VIF) 3,4 1/(1–reu 2) com reu 2 o coeficiente de determinação da previsão de todas as outras variáveis ​​para o euos elementos diagonais variáveis ​​de R –1, com R –1 o inverso dos valores da matriz de correlação (VIF = 1 se ortogonal) & gt10 (reu 2 & gt0.9) indica variância mais de 10 vezes maior do que o caso de preditores ortogonais & gt10
Tolerância 1 / VIF & lt0.1

A classe de índices mais útil depende da complexidade do conjunto de dados. Os índices de conjunto de variáveis ​​são preferíveis ao verificar rapidamente a colinearidade em conjuntos de dados com um grande número de variáveis ​​explicativas. Os índices por variável fornecem uma imagem mais detalhada do número de variáveis ​​envolvidas e do grau de colinearidade. Às vezes, os índices por variável podem indicar colinearidade, embora os índices do conjunto de variáveis ​​não a percebam.

Removendo colinearidade antes da análise

O primeiro conjunto de métodos de colinearidade, e também o maior, compreende abordagens que removem a colinearidade do conjunto de variáveis ​​ou modificam o conjunto de variáveis ​​de forma que a colinearidade seja removida antes da análise. Esse conjunto se divide em dois grupos, que diferem fundamentalmente em sua abordagem. O primeiro grupo de métodos de limpeza de pré-análise identifica quais variáveis ​​estão agrupadas e, portanto, formam um conjunto de proxy (seção Identificar clusters / conjuntos de proxy). Depois que um cluster é identificado, várias maneiras de proceder são possíveis e são discutidas a seguir (seção Lidando com clusters). O segundo grupo não passa por clusters para chegar a novos conjuntos de dados (seção Métodos independentes de cluster), mas usa uma variedade de outros métodos para ir da entrada colinear para os dados de saída não colineares. Vários dos métodos apresentados a seguir usam correlação como um indicador de colinearidade. Notamos que correlação e colinearidade não são a mesma: colinearidade significa linearmente relacionado, enquanto dados com quantidades variáveis ​​de parentesco linear podem ter o mesmo coeficiente de correlação. No entanto, altos coeficientes de correlação absoluta geralmente indicam alta relação linear.

Identificar clusters / conjuntos de proxy

Existem vários métodos para agrupar variáveis, dos quais selecionamos os mais comuns. Neste ponto, surge uma decisão conceitual: se a variável de resposta (y) deve ser usado ao identificar clusters. Harrell (2001) defende que a resposta deve ser ignorada, pois os clusters representam o agrupamento de variáveis ​​explicativas em relação a si mesmas, e não o agrupamento de variáveis ​​em sua relação com a resposta. A seguir, mencionaremos explicitamente sempre que y é usado como entrada.

A análise de componentes principais (PCA) é uma das maneiras mais comuns de remover correlações em um conjunto de variáveis ​​e reduzir a colinearidade (já que a correlação pode servir como um indicador de colinearidade). Só pode ser aplicado a variáveis ​​contínuas, embora existam métodos de ordenação intimamente relacionados, como a análise de correspondência, que pode lidar com outros tipos de variáveis. O PCA produz eixos ortogonais (ou seja, perfeitamente não correlacionados) como saída, portanto, sem agrupamento, os eixos do PC podem ser usados ​​diretamente em análises subsequentes no lugar das variáveis ​​originais. Discutiremos essa abordagem posteriormente na seção Modelagem de variáveis ​​latentes. Para usar o PCA para agrupamento, o PCA deve ser aplicado à matriz de correlação (em vez da matriz de covariância, que é distorcida pelas diferentes escalas de variáveis). Existem métodos para aplicar agrupamento diretamente aos componentes ou às rotações deles (Booth et al. 1994). Usamos apenas a abordagem direta, conforme descrito em detalhes no material suplementar Apêndice 1.1. A ideia geral é trabalhar progressivamente através dos eixos PCA, estudar os carregamentos das variáveis ​​sobre os eixos e identificar agrupamentos. Variáveis ​​com cargas absolutas maiores que 0,32 formam os "grupos proxy" ou clusters de interesse (Booth et al. 1994). O valor 0,32 é escolhido porque representa 10% da variância da variável explicada pelos eixos do PC (Tabachnick e Fidell 1989). Observe que o PCA é sensível a outliers (valores extremos), transformações, dados ausentes e assume distribuições multi-normais. Na prática, a técnica é relativamente robusta quando usada para descrição (em oposição ao teste de hipótese), desde que os dados sejam contínuos, não fortemente distorcidos e sem muitos outliers. Outras técnicas de ordenação (PCoA, nMDS, (D) CA) podem ser empregadas de forma análoga e podem ser mais adequadas para quaisquer dados dados. K- significa que o agrupamento é equivalente ao agrupamento baseado em PCA (Zha et al. 2001, Ding e He 2004).

A análise de cluster é a partição de um conjunto de variáveis ​​explicativas em subconjuntos, ou seja, os clusters são baseados na distância entre as variáveis ​​(Jain et al. 1999). O agrupamento pode ser executado de baixo para cima (aglomerativo) ou de cima para baixo (divisivo). Infelizmente, os resultados dependem fortemente de qual dos muitos algoritmos de agrupamento e qual das muitas métricas de distância são usados ​​(Lebart et al. 1995). Os mais comumente recomendados são o agrupamento de Ward com base na matriz de correlação ou um agrupamento de Hoeffding (Lebart et al. 1995, Harrell 2001), mas novos métodos, como mapas de auto-organização (Kohonen 2001) e outros algoritmos de aprendizado de máquina podem ser superior (Hastie et al. 2009). Como a análise de cluster hierárquica fornece uma árvore de cluster completa, um limite de distância deve ser especificado para formar os clusters reais.

A análise de fator de inflação de variância iterativa (iVIF) é um método baseado na quantificação da colinearidade por VIF (Booth et al. 1994). VIFs são os elementos diagonais do inverso da matriz de correlação. A análise VIF iterativa funciona, essencialmente, comparando os valores VIF de um conjunto de variáveis ​​preditoras com e sem uma variável explicativa adicional. Todas as variáveis ​​que mostram um aumento do valor VIF acima de um certo limite são agrupadas com a variável recém-adicionada em um cluster (conjunto proxy nos termos de Booth et al. 1994). A fórmula iterativa garante que todas as combinações de variáveis ​​sejam testadas. O método identifica grupos diferentes em comparação com uma classificação baseada em valores VIF de pares porque também considera o VIF de grupos de mais de duas variáveis.

Lidando com clusters

Uma vez que os clusters são identificados, existem várias maneiras de lidar com eles, sendo as três mais comuns: 1) realizar um PCA com base nas variáveis ​​do cluster e usar os componentes principais (PCs) 2) representar o cluster pela variável mais próxima do centróide do cluster ou 3) representar o cluster pelas variáveis ​​com maior valor preditivo univariado para a resposta.

PCA em variáveis ​​de cluster é a maneira mais comum de criar "pontuações de cluster" (Harrell 2001). Contanto que todos os componentes principais sejam usados ​​na regressão subsequente, a análise será imparcial (F. Harrell com. Pess. Em R-help). Onde subconjuntos de PCs são escolhidos, a tendência resultante pode ser tolerável se os eixos selecionados explicam a maior parte da inércia do cluster. A vantagem é que essa abordagem baseada na pontuação do eixo composto integra todas as variáveis ​​do cluster, mas a desvantagem é que os PCs geralmente serão difíceis de interpretar.

Selecionar uma variável "central" do cluster supera os problemas de interpretação, mas inevitavelmente introduz um viés ao omitir certas variáveis ​​(Fraley e Raftery 1998). As variáveis ​​mais próximas (por exemplo, em termos de distância euclidiana) do centro do cluster multidimensional são candidatas óbvias.

Usar o "melhor regressor" das variáveis ​​em um cluster tem a desvantagem de usar a resposta para determinar quais variáveis ​​são selecionadas. Esta circularidade de usar y na análise pode aumentar os erros do tipo I (Harrell 2001). No entanto, uma vez que uma análise de dados exploratória geralmente precede a análise de qualquer maneira, a melhor abordagem de regressor ("espionagem de dados") pode não distorcer a análise muito em comparação com ignorar completamente a colinearidade.

Observe que embora alguns métodos possam parecer mais apropriados porque usam variáveis ​​"interpretáveis" em vez de pontuações de eixo composto, isso é enganoso: de qualquer forma que representemos um cluster, a variável usada representa todas as outras variáveis ​​do cluster e não deve ser interpretado apenas pelo valor de face. Renomear a variável retida para refletir suas múltiplas identidades é uma precaução sensata.

Métodos independentes de cluster

Existem duas opções principais para contornar a identificação de clusters e usar diretamente as variáveis ​​de entrada colineares durante a análise ou para produzir um conjunto menos colinear de preditores.

Selecione as variáveis ​​correlacionadas | r | & lt0.7 é o método mais comumente aplicado em diferentes campos da ciência, embora com vários limites. Isso só tem uma interpretação inequívoca quando uma diferença clara na importância ecológica existe entre as variáveis ​​correlacionadas. Quando este não for o caso, pré-varreduras univariadas não lineares de cada variável ('espionagem de dados') podem ser usadas para determinar a sequência de importância (ver Murray e Conner 2009, para uma revisão dos métodos usando apenas abordagens lineares). Embora um limite de 0,7 seja o mais comum, também foram usados ​​limites mais restritivos (por exemplo, 0,4 em Suzuki et al. 2008) e menos restritivos (0,85 em Elith et al. 2006).

A regressão sequencial (Graham 2003) visa criar novas variáveis ​​explicativas eliminadas, subtraindo reciprocamente a variação comum das variáveis ​​menos importantes. Ele faz a regressão linear das variáveis ​​explicativas umas contra as outras e usa os resíduos para representá-las. Observe que, embora essa abordagem às vezes também seja chamada de "regressão residual" (Graham 2003), é fundamentalmente diferente da abordagem acertadamente criticada de "regressão de resíduos" (Freckleton 2002). Na regressão sequencial, os preditores são regredidos, enquanto na "regressão dos resíduos" os resíduos da variável independente são usados ​​em uma regressão de segundo passo. Na prática, a regressão sequencial compreende as seguintes duas etapas: 1) identificar uma sequência de importância para as variáveis ​​explicativas. De preferência, isso deve ser feito por meio de raciocínio ecológico. Se os dados forem ecologicamente indistinguíveis (por exemplo, concentração de minerais residuais no solo), regressões univariadas não lineares na variável de resposta podem ser usadas para determinar a ordem de importância. 2) Calcule a contribuição independente de cada variável explicativa. A primeira variável (mais importante) permanecerá como está. A segunda variável será regredida contra a primeira, e os resíduos dessa regressão representam a contribuição independente da segunda variável após a contabilização do efeito da primeira. A terceira variável agora será regredida contra a primeira e os resíduos da segunda, e assim por diante. As variáveis ​​resultantes são ortogonais, mas condicionais. Eles não podem ser interpretados sem as variáveis ​​anteriores. Além disso, uma simplificação do modelo stepwise padrão não pode ser usada, porque depois de remover uma variável, todas as variáveis ​​de menor importância devem ser recalculadas. A interpretação das variáveis ​​muda de "há um efeito positivo de precipitação" para "há um efeito de precipitação adicional à contribuição que já deu por meio de sua relação com a temperatura". Conceitualmente, a regressão sequencial está relacionada à análise de correlação semi-parcial (Bortz 1993) e à análise de caminho, métodos onde as variáveis ​​podem atuar por meio de seus relacionamentos com outras variáveis ​​(Grace 2006).

Modelagem com variáveis ​​latentes

Alguns métodos são projetados para incorporar variáveis ​​colineares. Os métodos descritos nesta seção lidam com a colinearidade, construindo as chamadas variáveis ​​"latentes", ou seja, variáveis ​​não observadas que fundamentam as variáveis ​​colineares observadas. Como resultado dos métodos usados, a maior parte da variância nas variáveis ​​explicativas observadas concentra-se nas primeiras variáveis ​​latentes novas e geralmente as variáveis ​​latentes menos importantes são descartadas, levando a uma redução nas dimensões. Os métodos diferem em como as variáveis ​​latentes são derivadas, se a variável de resposta está incluída nesta derivação e quantas variáveis ​​latentes são extraídas.

A regressão de componente principal (PCR) simplesmente usa os PCs como variáveis ​​explicativas e é restrita a ajustes lineares para essas variáveis. Freqüentemente, são usados ​​apenas os PCs que explicam cumulativamente mais de 90% da variação. Em seguida, um procedimento passo a passo simplifica ainda mais o modelo. A regressão do componente principal de Ridge (Vigneau et al. 1997) é um caso especial de PCR, onde os PCs não são usados ​​em um modelo de regressão comum, mas em um modelo de regressão penalizado. Para obter detalhes sobre a penalização, consulte a seção Métodos tolerantes abaixo.

Mínimos quadrados parciais (PLS) modifica iterativamente os carregamentos das variáveis ​​explicativas em um PCA, a fim de maximizar o ajuste da regressão PCA na variável de resposta y (Abdi 2003). Assim, mantém os eixos PLS ortogonais, mas eles não representam mais a variação máxima em X. A intenção desta abordagem é que as variáveis ​​latentes escolhidas sejam relevantes não apenas para X, mas também para y, embora Hastie et al. (2009) mostram que a variância em X ainda tende a dominar.

No PLS comum, as rotações dos componentes principais são ajustadas à variável de resposta. Alterando a rotação em um procedimento iterativo, o melhor ajuste linear para a resposta é encontrado. Os mínimos quadrados parciais penalizados usam um ajuste não linear, baseado em splines, para encontrar a melhor rotação e, portanto, os melhores componentes PLS (Krämer et al. 2007). PPLS pode, portanto, ser visto como uma combinação de PLS e modelos aditivos generalizados (GAMs). No entanto, os GAMs são modelos muito flexíveis, que podem sobrecarregar os dados consideravelmente (ou seja, têm alto desempenho nos dados de treinamento, mas poucos nos dados de teste). Para contornar esse problema, os parâmetros são penalizados, resultando em um modelo mais robusto. Esse processo também é discutido na literatura estatística como redução ou regularização (Harrell 2001, Reineking e Schröder 2006). Para obter mais detalhes sobre a penalização, consulte a seção Métodos tolerantes abaixo.

A análise de componentes principais restritos (CPCA: Vigneau et al. 2002) funciona de maneira semelhante ao PLS, mas não é iterativa. Para encontrar a melhor rotação de X requer a estimativa de um parâmetro de ajuste, que equilibra o ajuste para y contra a maximização de variância semelhante ao PCA em eixos consecutivos (consulte o material suplementar do Apêndice 1.1 para obter detalhes). Assim, enquanto um PCA visa representar a variação em X com o mínimo possível de componentes principais e o PLS se concentra na adaptação de y, O CPCA equilibra esses dois objetivos.

Na regressão de raiz latente (Webster et al. 1974, Gunst et al. 1976), a variável de resposta é incluída em uma PCA com os preditores. Isso identifica eixos PCA importantes como aqueles com uma alta carga de y. Uma possibilidade de seleção de eixos é definir certos limites para os valores próprios e os carregamentos de y (Vigneau et al. 1996). Em seguida, o PCA é executado novamente, mas apenas nas variáveis ​​selecionadas, excluindo “a colinearidade não preditiva” (Gunst et al. 1976). Citando Joliffe (2002, p. 180): ‘Assim, a regressão raiz latente exclui os PCs que indicam multicolinearidades, mas apenas se a multicolinearidade parecer inútil para prever y. ’Hawkins (1973) e Hawkins e Eplett (1982) mantêm a variável de resposta ao recalcular o PCA, que consideramos incorreto. A decisão sobre quais valores próprios contam como grandes o suficiente para reter suas variáveis ​​de alta carga é um tanto arbitrária (Gunst e Mason 1980). Uma abordagem mais elegante, na qual combinações lineares de preditores são formadas sequencialmente e relacionadas à variável dependente para determinar sua relevância para as previsões, foi introduzida por Vigneau et al. (2002). A vantagem e a desvantagem do LRR são bem descritas por Guerard e Vaught (1989, p. 349): "A regressão raiz latente adiciona um termo tendencioso enquanto elimina o mau condicionamento. [...] o termo de tendência é pequeno e o erro quadrático médio do estimador de regressão raiz latente é menor do que o erro quadrático médio do estimador de mínimos quadrados ordinários. Assim, LRR é preferível à análise OLS [mínimos quadrados ordinários], desde que o vetor de parâmetro não seja paralelo ao vetor latente correspondente à menor raiz latente da matriz de correlação. '

A redução de dimensão (DR) está relacionada, estruturalmente, à análise fatorial, uma vez que também produz novos eixos ortogonais e testes para o número de dimensões necessárias para representar o conjunto de dados. No entanto, o DR também usa a variável de resposta para fazer isso. Existem diferentes técnicas de DR: regressão inversa fatiada (SIR: Li 1991), estimativa de variância média fatiada (SAVE: Cook e Weisberg 1991), direções Hessianas principais (PHD: Li 1992) e estimativa de regressão inversa (IRE: Wen e Cook 2007). De acordo com Weisberg (2008), os três primeiros desses métodos examinam o problema de regressão inversa de X|y, ao invés do problema de regressão progressiva de y|X. Um grande benefício do DR sobre as outras abordagens de variáveis ​​latentes é que as variáveis ​​categóricas também podem ser analisadas. Os carregamentos de eixos podem ser usados ​​da mesma maneira que o PCA para construir clusters.

Métodos tolerantes

Algumas técnicas de regressão podem ser mais sensíveis à colinearidade do que outras. Desenvolvimentos recentes em métodos de seleção de modelo introduziram novos métodos para equilibrar a complexidade e o ajuste do modelo. Embora não sejam necessariamente projetados para tolerar a colinearidade, eles oferecem abordagens que podem ser menos sensíveis. As abordagens listadas aqui se enquadram em quatro grupos diferentes.

As regressões penalizadas são responsáveis ​​pelo número de parâmetros p em um modelo e suas estimativas absolutas β: complexidade do modelo = []. O grau de penalização difere entre as abordagens: Na regressão crista λ= 2 (também chamado de 'L2-norm ’: Hoerl e Kennard 1970), na regressão LASSO λ= 1 (‘L1-norm ’: Tibshirani 1996) e em OSCAR (veja abaixo) λ é otimizado usando o L1-norm juntamente com a norma L∞ de pares (Bondell e Reich 2007). A combinação de L1 e eu2 normas é chamada de rede elástica (Zou e Hastie 2005) e é semelhante a OSCAR (Bondell e Reich 2007). Dependendo da forma da penalidade, os coeficientes de regressão são reduzidos e / ou selecionados. Enquanto todos os métodos mencionados levam à redução dos coeficientes de regressão para zero, a regressão de crista não realiza seleção nem agrupamento, enquanto LASSO seleciona, mas não agrupa parâmetros. A redução dos coeficientes para zero leva a um viés de estimativa, mas também a um erro de previsão menor devido à variação diminuída (Hastie et al. 2009).

A redução octogonal para agrupamento e regressão (OSCAR) fornece ao usuário clusters com base em uma regressão de todas as variáveis ​​contra a resposta (Bondell e Reich 2007). Como as variáveis ​​de resposta e explicativas são padronizadas antes da análise, apenas respostas normalmente distribuídas e variáveis ​​explicativas contínuas podem ser empregadas. OSCAR requer a especificação de dois parâmetros de controle (a penalização do L1 norma e a penalização dos pares L norma), que deve ser otimizado, tornando o OSCAR um método bastante intensivo em computador.

Métodos de aprendizado de máquina são uma área vibrante de pesquisa em ecologia (Elith et al. 2006, Hastie et al. 2009), e apresentamos apenas quatro métodos, escolhidos por seu interesse para ecologistas. Nossos métodos de aprendizado de máquina são construídos em torno de árvores de classificação e regressão (Boosted Árvores de regressão, BRT: Friedman et al. 2000 e randomForest: Breiman 2001) ou polinômios ou splines multidimensionais muito flexíveis, de alta ordem (Support Vector Machines, SVM: Fan et al. 2005, e Multivariate Adaptive Regression Splines, MARS: Friedman 1991). Os detalhes desses métodos podem ser encontrados no material suplementar do Apêndice 1.1.

A regressão ponderada por colinearidade (CWR) é uma ideia nova desenvolvida durante este estudo por CFD, TM e BR. O método reduz os pontos de dados que mais fortemente contribuem para o padrão de colinearidade na regressão da variável de resposta em relação às variáveis ​​explicativas (X) É provável que isso seja mais útil em situações em que os valores discrepantes são incidentais e (parcialmente) responsáveis ​​por uma forte colinearidade.


Introdução

Os distúrbios hipertensivos da gravidez (DHEG) e, em particular, a pré-eclâmpsia e a eclâmpsia, continuam sendo uma das três principais causas de mortalidade e morbidade materna em todo o mundo [1] - [4]. A pré-eclâmpsia também aumenta os riscos fetais, tendo sido encontrada associação com aumento do risco de natimorto, morte neonatal, restrição de crescimento intrauterino e parto prematuro [4]. A maioria das mortes associadas ao HDP ocorre nos países de baixa e média renda (LMICs) na ausência de um profissional de saúde treinado [5], [6]. Acredita-se que o aumento da carga de resultados adversos em LMICs seja devido principalmente a atrasos na triagem (identificação de quem está, ou pode ficar, gravemente doente e deve buscar um nível mais alto de atendimento), transporte (levar as mulheres aos cuidados apropriados) e tratamento (fornecimento de tratamento apropriado, como sulfato de magnésio, anti-hipertensivos e parto programado) [7] - [9]. Um dos principais fatores que contribuem para a morbidade e mortalidade associadas à pré-eclâmpsia é a falta de profissionais de saúde adequadamente treinados na detecção e triagem de casos suspeitos [9].

Um método sugerido para melhorar os resultados nos LMICs é a transferência de tarefas dos aspectos dos cuidados pré-natais para os quadros existentes de profissionais de saúde de nível médio [5], [10]. Para fazer isso de forma eficaz, esses profissionais de saúde exigem ferramentas simples e baseadas em evidências para monitorar mulheres grávidas e identificar com precisão quem está em maior risco de complicações graves. Ao identificar as mulheres com maior risco de desfechos maternos adversos bem antes que esse desfecho ocorra, o transporte e o tratamento podem ser direcionados para as mulheres mais necessitadas.

Nosso grupo desenvolveu anteriormente o modelo de predição clínica da Estimativa Integrada de Pré-eclâmpsia de RiSk (fullPIERS), que prevê resultados maternos adversos entre mulheres com pré-eclâmpsia com base na idade gestacional da mulher no diagnóstico, o complexo de sintomas de dor no peito e / ou dispneia, saturação de oxigênio por oximetria de pulso e resultados laboratoriais de contagem de plaquetas, creatinina sérica e aspartato transaminase. O modelo fullPIERS, validado em um hospital terciário de alta renda, tem excelente capacidade discriminatória com uma área sob a curva de característica operacional do receptor (AUC ROC) de 0,88 (IC 95% 0,84-0,22) [11] . No entanto, devido à inclusão de testes de laboratório, o modelo fullPIERS pode não ser adequado para todos os ambientes, particularmente os ambientes de atenção primária em LMICs.

O objetivo do estudo miniPIERS foi desenvolver e validar um modelo simplificado de predição clínica para resultados maternos adversos entre mulheres com HDP para uso na comunidade e em unidades básicas de saúde em LMICs.


Métodos

Aquisição de dados

Montamos um conjunto de dados contendo 45 gêneros de aranhas e múltiplos atributos (variáveis ​​preditoras) que poderiam afetar a riqueza de espécies (variável dependente). Nós categorizamos as variáveis ​​preditoras em quatro grupos: morfológicas, genéticas, geográficas e “outras” (contendo classificação filogenética, presença de balonismo, tipo de forrageamento e dimorfismo de tamanho sexual (SSD)). Selecionamos gêneros de aranha, aqueles que tinham dados publicamente disponíveis dos atributos acima, aleatoriamente. Além disso, nos esforçamos para selecionar os gêneros que exibiram variação significativa nas variáveis ​​preditoras, bem como variação na riqueza de espécies. Sempre que possível, asseguramos que as variáveis ​​de dados categóricos fossem representadas de forma aproximadamente igual pelo número de observações em cada categoria (Arquivo adicional 2).

Variáveis ​​morfológicas

Usamos as informações do tamanho do corpo como uma variável preditora morfológica. Obtivemos os seguintes dados: (a) tamanho máximo do corpo feminino, representado pela maior espécie dentro de um gênero (b) tamanho mínimo do corpo feminino, representado pela menor espécie dentro de um gênero (c) tamanho máximo do corpo masculino, representado pelo maior espécies dentro de um gênero e (d) tamanho mínimo do corpo masculino, representado pela menor espécie dentro de um gênero. A partir desses valores, calculamos os tamanhos corporais médios e a variação nos tamanhos corporais de homens e mulheres e de ambos os sexos combinados. Isso resultou em dez permutações de variáveis ​​de tamanho corporal para as análises. Obtivemos informações sobre o tamanho do corpo principalmente de Araneae, banco de dados Spiders of Europe [88] e consultamos a literatura original para gêneros não representados nesse banco de dados (ver arquivo adicional 2).

Variáveis ​​genéticas

Usamos as distâncias genéticas, calculadas a partir dos dados do COI, como variável preditora genética. Nós mineramos dados de sistemas BOLD ou GenBank para todas as sequências COI disponíveis publicamente por gênero alvo. Em seguida, descartamos as sequências que eram menores que 600 nucleotídeos e aquelas sem uma identificação de espécie. Selecionamos uma única sequência por espécie para calcular distâncias de pares em MEGA [89]. Usamos o parâmetro K2P e uma opção de deleção par a par para calcular as distâncias genéticas interespecíficas (congenéricas) mínimas, máximas e médias dentro de cada gênero (arquivo adicional 2).

Variáveis ​​geográficas

Formamos quatro variáveis ​​preditoras geográficas. Primeiro, classificamos a extensão geográfica de cada gênero de aranha-alvo. Usamos as informações sobre ocorrências de espécies do World Spider Catalog (WSC) [56] e Global Biodiversity Information Facility (GBIF) [90] e classificamos gêneros geográficos com os seguintes critérios: (classificação 1) todas as espécies dentro do gênero são distribuídas localmente, por exemplo, dentro de um único arquipélago (classificação 2) todas as espécies congenéricas são distribuídas dentro de um único continente (classificação 3) todas as espécies congenéricas são distribuídas entre dois continentes (classificação 4) todas as espécies congenéricas são distribuídas entre três continentes e (classificação 5) espécies congenéricas ocorrem em quatro ou mais continentes, ou seja, o gênero é cosmopolita. Em segundo lugar, contamos as espécies endêmicas de uma única ilha dentro de cada gênero [56] e calculamos a porcentagem de endêmicas de uma única ilha congenérica. Terceiro, contamos as espécies congenéricas cujas ocorrências são limitadas a um único país (excluindo os países insulares da etapa anterior) e calculamos a porcentagem de espécies congenéricas com uma distribuição limitada. Finalmente, combinamos a porcentagem de endemias em uma única ilha e a porcentagem de ocorrências em um único país no quarto preditor geográfico, a porcentagem de espécies congenéricas com uma “faixa estreita” (arquivo adicional 2).

Outras variáveis

Formamos quatro variáveis ​​preditoras adicionais. Nós categorizamos os gêneros em quatro classes filogenéticas: (a) Mesothelae, (b) Mygalomorphae, (c) Haplogynae e (d) Entelegynae. Esses distintos clados de aranha de diferentes idades evolutivas [73, 74] representam uma aproximação de uma variável preditora de idade do clado. No entanto, após uma análise preliminar, combinamos os clados Mesothelae e Mygalomorphae em um grupo “Orthognatha” porque, separadamente, ambas as classes foram sub-representadas pelo número de pontos de dados. Embora parafilético, o grupo “Orthognatha” é evolucionário o mais antigo, o Entelegynae é o mais jovem e Haplogynae é intermediário. Os clados Entelegynae e Haplogynae juntos representam as aranhas Araneomorphae (arquivo adicional 2).

No campo da ecologia comportamental, incluímos o tipo de forrageamento e a presença de dispersão por balão como preditores. O tipo de forrageamento foi classificado como “armadilha” ou “cursorial”. A “armadilha” compreende a captura de presas por teia ou emboscada, enquanto uma busca ativa sem teia por comida determina a categoria “cursorial”. A presença de dispersão por balão foi classificada como “sim” ou “não” de acordo com a revisão sobre balão em aranha [63] (arquivo adicional 2).

A última variável preditora foi a presença ou ausência de dimorfismo sexual de tamanho (SSD). Calculamos o SSD a partir do tamanho médio do corpo de uma espécie dentro do gênero. Se a razão entre os tamanhos médios do corpo feminino e masculino excedeu 1,5, classificamos o gênero como tendo espécies com SSD (“sim”), caso contrário, presumimos que tal gênero não contém espécies dimórficas de tamanho sexual (“não”). Como a literatura considera uma proporção de 2,0 já como SSD extremo [59], nossa proporção escolhida arbitrariamente de 1,5 já considera SSD moderado (assim como extremo). Reconhecemos que calcular SSD de uma única espécie dentro de um gênero provavelmente produzirá resultados falsos negativos, mas tivemos que aceitar as restrições que pertencem a um grande conjunto de dados (arquivo adicional 2).

Riqueza de espécies como variável dependente

Obtivemos o número total de espécies descritas dentro de cada gênero-alvo da WSC [56]. Deixamos a riqueza de espécies como uma variável dependente numérica para os modelos de regressão Random Forest (RF) e categorizamos para modelos de classificação de RF, bem como para análises de correspondência múltipla (MCA). Usamos definições alternativas para categorias de riqueza de espécies, variando de dois grupos amplos ("baixo" e "alto") a cinco grupos mais restritos ("muito alto", "alto", "médio", "baixo", "muito baixo") , tentando manter todas as categorias aproximadamente igualmente representadas por pontos de dados (arquivo adicional 2).

Nossa metodologia não leva em consideração as incertezas taxonômicas e, portanto, uma advertência potencial é que a variação na completude taxonômica entre os gêneros pode distorcer os resultados. Para amenizar esse viés potencial, nossa escolha dos gêneros analisados ​​foi aleatória. Além disso, vieses relativos a taxonomias de gênero desigualmente completas são provavelmente diminuídos por uma ampla categorização de dados. Quanto mais amplas as categorias de riqueza de espécies, menor o impacto de espécies não descritas.

Protocolos analíticos

Floresta Aleatória

O poder das previsões da Random Forest (RF) é baseado no “GINI de diminuição média”, um índice que explica o poder preditivo de cada variável na regressão ou classificação [91]. Quanto maior a diminuição de Gini, maior o papel dessa variável preditora [91, 92]. A importância dos recursos sob avaliação pode, portanto, ser classificada, fornecendo uma interpretação gráfica intuitiva (Fig. 1). O desempenho de RF quando confrontado com múltiplas variáveis ​​colineares no conjunto de dados é geralmente superior aos modelos de regressão mais convencionais e outros métodos de estatísticas multivariadas devido à sua natureza não paramétrica, seleção aleatória de recursos em cada criação de nó e particionamento recursivo [93,94 , 95]. Embora o RF deva identificar com precisão o melhor preditor, mesmo entre variáveis ​​altamente correlacionadas, algumas variáveis ​​que se correlacionam com o melhor preditor podem ter reduzido artificialmente o índice de importância em relação ao melhor preditor. Portanto, recomenda-se cautela ao interpretar a importância relativa entre as variáveis ​​correlacionadas [96, 97].

Usamos o pacote randomForest [98] em R [99] para construir dez modelos de RF. Os primeiros seis modelos de RF classificaram a riqueza de espécies em duas categorias. Executamos a primeira análise de RF usando todas as 22 variáveis ​​preditoras. As análises de RF 2-5 usaram um subconjunto de variáveis, "morfológicas", "geográficas", "genéticas" e outras ", enquanto a última análise de RF continha apenas um único melhor preditor para a riqueza de espécies de cada uma das categorias anteriores (" importante ”). O modelo de RF usando as variáveis ​​preditoras “importantes” que não são colineares também minimiza qualquer dilema potencial que possa surgir das análises de RF de todas as variáveis ​​preditoras, das quais algumas exibem um grau de colinearidade. Realizamos a classificação de RF com a variável de riqueza de espécies dividida em três categorias para as análises 7 e 8, que usaram todas as variáveis ​​preditoras e preditores “importantes”, respectivamente. Os dois modelos de regressão de RF também usaram variáveis ​​preditoras “todas” e “importantes”. O conjunto de dados para análises de RF continha uma combinação de dados binários, categóricos e numéricos. Transformamos faixas geográficas (1 a 5) de numéricas em variáveis ​​de fator. Os dados foram então divididos aleatoriamente em treinamento (n = 32) e conjuntos de dados de teste (n = 13) exceto para os modelos de regressão onde um conjunto de dados de treinamento teve que ser maior (n = 40) para facilitar o “aprendizado”. Executamos RF no conjunto de dados de treinamento e modelos de RF otimizados, pesquisando os valores ideais de “mtry” e “ntree” para reduzir o erro “out of the bag” (OOB). Finalmente, a precisão de cada modelo de RF treinado foi avaliada com o conjunto de dados de teste. Consulte os materiais de apoio (arquivo adicional 3) para o script R.

Gerenciando aleatoriedade de análises de RF

Cada análise que emprega algoritmos de aprendizado de máquina, como RF, inevitavelmente leva a resultados de resultados ligeiramente diferentes. O primeiro e mais óbvio motivo é uma divisão aleatória dos dados nos conjuntos de dados de treinamento e teste. Em seguida, está a seleção aleatória de recursos em cada criação de nó ao procurar o melhor “mtry” e outra seleção aleatória de recursos ao executar uma análise de RF. Para investigar o desempenho de nossa RF além de um único evento aleatório que pode, por acaso, produzir resultados espúrios, executamos cada uma das dez análises de RF com dez números de sementes diferentes em R (set.seed = 1 a 10), totalizando 100 previsões de RF. Em seguida, verificamos a consistência das previsões e selecionamos os resultados de RF com o menor erro OOB estimado de cada análise. Para reprodutibilidade de nossas análises de RF, incluímos as informações sobre aleatoriedade como os números de sementes usados ​​em cada análise no script R (arquivo adicional 3).

Análise de correspondência múltipla (MCA)

Seguindo as análises de RF, selecionamos o melhor preditor de cada grupo de variáveis. Analisamos ainda as relações entre os preditores selecionados e a riqueza de espécies com análise de correspondência múltipla (MCA). Usamos o pacote FactoMineR [100] em R para executar e visualizar o MCA. Todas as variáveis ​​no MCA devem ser categóricas, portanto, atribuímos classes de tamanho corporal masculino mínimo e distância genética máxima de COI. Machos menores que 5 mm (n = 22) foram rotulados como "pequenos", enquanto os machos maiores que 5 mm (n = 22) foram rotulados como “grandes” (arquivo adicional 2). Da mesma forma, atribuímos os gêneros com distância genética máxima de COI de 18% ou superior (n = 24) em uma categoria "grande" e os gêneros com valores mais baixos (n = 20) em uma categoria “pequena” (arquivo adicional 2). Com a análise preliminar de MCA, identificamos um único outlier extremo Heptatela, o único gênero com um intervalo 1. A presença de um ou mais outliers em MCA pode dominar a interpretação dos eixos [101], portanto, eliminamos Heptathela e prosseguiu com os 44 gêneros restantes.

Embora nosso MCA inicial usasse duas categorias para riqueza de espécies, tamanho mínimo do corpo masculino e distâncias máximas de COI, realizamos cinco análises adicionais de MCA com definições de categorias alternativas para servir como testes de sensibilidade do método. A riqueza de espécies e as categorias de tamanho corporal mínimo dos machos variaram de dois a cinco e as distâncias máximas de COI variaram de dois a três. Conforme descrito acima, tentamos manter todas as categorias aproximadamente igualmente representadas por pontos de dados (arquivo adicional 2). O arquivo adicional 4 contém o script R que pode ser usado para repetir ou alterar nossas análises com categorias alternativas.

A elipse de confiança se sobrepõe nas dimensões do MCA

Para aumentar a interpretação visual do MCA, traçamos as elipses de confiança mais relevantes das categorias de variáveis ​​em um único gráfico. Além disso, calculamos as proporções de sobreposições entre essas elipses de confiança usando spatstat: utils R package [102] (para obter detalhes, consulte o arquivo adicional 4).

Análise de correlação de Spearman

Após inúmeras análises de RF e MCA, identificamos o tamanho corporal mínimo dos machos como a variável mais associada à riqueza de espécies. Portanto, também realizamos uma análise de correlação mais estabelecida entre o tamanho corporal mínimo dos machos e a riqueza de espécies em R. Primeiro testamos os dados de normalidade usando o teste de Shapiro-Wilk, em seguida, com base nesses resultados, realizamos a correlação de Spearman (detalhes no arquivo adicional 5 )


Usando modelos para fazer previsões

Os alunos exploram como a radiação solar, a superfície da Terra e os oceanos e os gases do efeito estufa interagem para causar o aquecimento global. Eles podem alterar as variáveis ​​para determinar a quantidade de emissões de gases de efeito estufa que pode ser necessária para reduzir o aumento da temperatura.

Modelos de Clima de Desenvolvimento

Esta lista os logotipos de programas ou parceiros da NG Education que forneceram ou contribuíram com o conteúdo desta página. Conteúdo criado por

Links

Local na rede Internet

1. Ativa o conhecimento prévio dos alunos sobre gases de efeito estufa e aquecimento global.

Diga aos alunos que eles investigarão a quantidade de concentrações de gases de efeito estufa que precisam ser reduzidas para evitar um grande aquecimento da atmosfera terrestre. Reveja com os alunos as interações dos gases de efeito estufa com a radiação e temperatura e as superfícies e temperatura da Terra. Perguntar:

  • Como os gases de efeito estufa causam o aquecimento atmosférico? (Os gases de efeito estufa absorvem a radiação infravermelha de saída e a reemitem, prendendo a energia térmica na atmosfera.)
  • Como o nível de dióxido de carbono na atmosfera afeta o nível de vapor d'água na atmosfera? (Quando há mais dióxido de carbono na atmosfera, haverá mais vapor de água na atmosfera. O dióxido de carbono aumenta as temperaturas, o que leva ao aumento da evaporação da água. Isso leva a mais aquecimento e mais dióxido de carbono na atmosfera. liberado dos oceanos e mais vapor de água conforme mais água evapora. Esta é uma relação de feedback positivo.)
  • Como a cor das superfícies da Terra afeta a temperatura? (Quando a superfície é de cor clara, a radiação solar é refletida, levando a menos aquecimento. Quando a superfície é de cor escura, a radiação solar é absorvida, levando a mais aquecimento.)
  • Qual é a relação entre vapor d'água e nuvens? (Quando há mais vapor de água, há mais nuvens. As nuvens podem refletir a radiação solar, levando ao resfriamento, o que pode diminuir a quantidade de vapor de água no ar. Esta é uma relação de feedback negativo.)

2. Discuta o papel da incerteza no processo científico.

Ciência é um processo de aprendizagem de como o mundo funciona e que os cientistas não sabem as respostas & # 8220 certas & # 8221 quando começam a investigar uma questão. Diga aos alunos que eles podem ver exemplos da incerteza dos cientistas na previsão do clima.

Mostra a Gráfico de mudança de temperatura global do relatório de 1995 do IPCC (Painel Intergovernamental sobre Mudanças Climáticas). Diga aos alunos que este gráfico mostra vários modelos diferentes de mudanças de previsão de temperatura. Pergunte: & # 160Por que há mais variação (uma distribuição mais ampla) entre os modelos em datas posteriores do que em datas próximas? & # 160(Há mais variação entre os modelos em datas posteriores do que em datas mais próximas, porque há mais variabilidade na previsão do futuro distante do que na previsão do futuro próximo.)

Diga aos alunos que a capacidade de prever melhor os eventos de curto prazo ocorre na previsão de furacões e tempestades tropicais também. Projeto A & # 160; Definição do cone de previsão da trilha do National Hurricane Center& # 160e mostre aos alunos o & # 8220 cone da incerteza & # 8221 ao redor do rastro da tempestade. Diga aos alunos que o cone mostra a incerteza dos cientistas na direção da tempestade, assim como os modelos climáticos mostram a incerteza dos cientistas em quanto a temperatura da Terra mudará no futuro.

Perguntar: Quando os cientistas estão mais confiantes em suas previsões? (Os cientistas ficam mais confiantes em suas previsões quando têm muitos dados. É por isso que a previsão de eventos de curto prazo é melhor do que as previsões de eventos de longo prazo, tanto na previsão de tempestades quanto na previsão do clima.)

Diga aos alunos que serão feitas perguntas sobre a certeza de suas previsões e que eles precisam pensar sobre quais dados científicos estão disponíveis enquanto avaliam sua certeza com suas respostas. Incentive os alunos a discutir as evidências científicas entre si para avaliar melhor seu nível de certeza com suas previsões.

3. Discuta o papel dos sistemas na ciência do clima.

Diga aos alunos que prever o que acontecerá no sistema climático da Terra é um processo complicado porque há muitas partes diferentes em interação. Os cientistas pensam sobre como uma parte do sistema pode afetar outras partes do sistema. Dê aos alunos um exemplo simples de um sistema, conforme descrito no cenário abaixo.

Em uma ilha, há uma população de raposas e uma população de coelhos. As raposas atacam os coelhos. Pergunte: & # 160

  • Quando houver muitos coelhos, o que acontecerá com a população de raposas? & # 160(Aumentará porque há um amplo suprimento de alimentos.) & # 160
  • O que acontece com a população de raposas quando elas & # 8217 comerem a maioria dos coelhos? & # 160(As raposas morrerão de fome à medida que seu suprimento de comida diminuir.) & # 160
  • O que acontece com a quantidade de grama quando a população de raposas é alta? & # 160(A quantidade de grama aumentará porque há menos coelhos para comer a grama.)
  • Se houver uma seca e a grama não crescer bem, o que acontecerá com as populações de raposas e coelhos? & # 160(A população de coelhos diminuirá porque eles têm um menor suprimento de comida. A população de raposas também deve diminuir à medida que seu suprimento de comida diminui.)

Os humanos apresentam os cães à ilha. Os cães competem com as raposas pelo suprimento de comida para coelhos. Pergunte: & # 160O que acontecerá com as populações de raposas, coelhos e grama depois que os cães forem introduzidos? & # 160 (As raposas diminuirão porque estão compartilhando seu suprimento de comida, os coelhos diminuirão porque têm mais predadores, e a grama ficará bem por causa do impacto reduzido da população menor de coelhos.)

Diga aos alunos que essas relações simples de causa e efeito podem se expandir para relações de sistema mais complexas. Deixe os alunos saberem que irão explorar as relações de causa-efeito e feedback do sistema entre o dióxido de carbono e o vapor de água nesta atividade. Peça aos alunos que pensem sobre como cada parte do sistema afeta outras partes do sistema.

4. Apresentar e discutir o uso de modelos computacionais.

Apresente o conceito de modelos computacionais e dê aos alunos um exemplo de modelo computacional que eles possam ter visto, como a previsão do tempo. Projete o NOAA Modelo de previsão do tempo, que fornece um bom exemplo de modelo computacional. Diga aos alunos que:

  • os cientistas usam informações sobre o passado para construir seus modelos climáticos.
  • os cientistas testam seus modelos climáticos usando-os para prever climas passados.
  • quando os cientistas podem prever com precisão os climas passados, eles podem estar mais confiantes sobre o uso de seus modelos para prever os climas futuros.

5. Peça aos alunos que iniciem o uso de modelos para fazer previsões interativo.

Forneça aos alunos o link para usar modelos para fazer previsões interativo. Divida os alunos em grupos de dois ou três, sendo dois o agrupamento ideal para permitir que os alunos compartilhem uma estação de trabalho do computador. Diga aos alunos que eles trabalharão em uma série de páginas de modelos com perguntas relacionadas aos modelos. Peça aos alunos que trabalhem com a atividade em seus grupos, discutindo e respondendo às perguntas à medida que avançam.

NOTA: Você pode acessar a chave de resposta para as perguntas dos alunos & # 8212 e salvar os dados dos alunos para avaliação online & # 8212 por meio de um registro gratuito na página do portal & # 160High-Adventure Science.

6. Peça aos alunos que discutam o que aprenderam na atividade.

Depois que os alunos concluírem a atividade, reúna os grupos e conduza uma discussão com foco nas seguintes questões:


Os dados de viagens aéreas usados ​​neste estudo não podem ser compartilhados publicamente por causa de um acordo de sigilo com a International Air Travel Association (IATA). Os mesmos dados podem ser adquiridos para uso por qualquer outro pesquisador entrando em contato com a International Air Travel Association (IATA) - Passenger Intelligence Services (PaxIS) (https://www.iata.org/services/statistics/intelligence/paxis/Pages/ index.aspx).

Os dados da doença (dengue) estão disponíveis mediante solicitação no Centro Europeu de Prevenção e Controle de Doenças (ECDC) (https://www.ecdc.europa.eu/en/publicationsdata/european-surveillance-system-tessy). Todas as outras fontes de dados relevantes são referenciadas no artigo.


Materiais e métodos

As concentrações totais de Se nos solos (mg Se / kg de solo, relatadas aqui como mg Se / kg de solos foram secos ao ar ou em estufa) 0-30 cm de profundidade (n = 33.241 amostras) foram obtidas no Brasil, Canadá, China, Europa, Japão, Quênia, Malaui, Nova Zelândia, África do Sul e Estados Unidos (Materiais e métodos SI para detalhes do conjunto de dados e uma discussão sobre quais conjuntos de dados Se foram usados, Figura S8). Amostras derivadas de sedimentos de riachos foram excluídas desta análise. Além disso, obtivemos 26 variáveis ​​que descrevem fatores hipotetizados para controlar as concentrações de Se no solo e as projeções de mudanças climáticas moderadas (RCP 6.0 para clima e A1B para dados SOC, Tabela S1 para descrições e citações de variáveis). Todos os dados em uma célula 1 ° foram calculados e representados por um único valor. Para minimizar a influência de erros e / ou outliers nos conjuntos de dados, os pixels contendo menos de cinco pontos de dados Se foram removidos da análise (Materiais e métodos SI) O conjunto de dados final de Se do solo consistia em n = 1.642 pontos agregados. Quatro técnicas para selecionar variáveis ​​[por exemplo, correlações, análise de componentes principais (PCA), modelagem de eliminação reversa e análises de pureza de nó de RF Materiais e métodos SI] foram usados ​​para reter as seguintes variáveis ​​para análise preditiva: IA, teor de argila, ET, litologia, pH, precipitação e SOC em uma profundidade de solo de 0-30 cm. Embora 16 classes litológicas estivessem presentes no conjunto de dados raster, classes que eram representadas por poucos pontos de dados de Se do solo (n & lt 200) foram agrupados em vez de serem excluídos (Fig. S4 e Materiais e métodos SI para uma discussão mais aprofundada).

Concentrações de Se para amostras de solo medidas em 2016 vs. valores de Se extraídos para o mesmo local de um mapa de contorno dos anos 1960. Os dados no x eixo foram coletados a partir de um recente levantamento geoquímico de solo padronizado (27), os dados sobre o y eixo foram publicados como um mapa de contorno em meados da década de 1960 (a data exata é desconhecida) (59). O mapa da década de 1960 foi digitalizado no ArcGIS 10.2, e para cada um dos pontos de dados do levantamento geoquímico recente, a concentração correspondente foi registrada no mapa digitalizado. Como os dados do mapa foram categorizados, cada ponto foi atribuído aleatoriamente a um valor de concentração que estava dentro do intervalo do depósito.

A modelagem preditiva foi realizada usando três modelos de aprendizado de máquina (um RF e dois modelos de rede neural artificial) (Materiais e métodos SI) Cada modelo foi iterado 1.000 vezes usando 90% dos dados para treinamento do modelo e 10% dos dados para validação cruzada para cada iteração. Os dados de treinamento e validação cruzada foram escolhidos aleatoriamente para cada iteração. As previsões do modelo foram calculadas para estimar as concentrações globais de Se no solo recentes (1980-1999), no entanto, as previsões foram consideradas válidas apenas se os parâmetros ambientais para cada pixel se ajustassem ao domínio dos dados observados (Fig. S5).

Análises de sensibilidade foram realizadas durante cada iteração para investigar o efeito independente de cada variável nas concentrações modeladas de Se no solo. Com base em todas as variáveis ​​de entrada, três zonas ambientais foram identificadas usando uma análise de cluster de duas etapas (Materiais e métodos SI) Com base nos dados de cada zona, os parâmetros individuais foram permitidos para variar enquanto todas as outras variáveis ​​foram mantidas constantes nas médias zonais. Usando zonas diferentes, podemos modelar a resposta do Se do solo a mudanças em variáveis ​​particulares sob diferentes condições ambientais. Essas análises nos permitiram identificar o mecanismo mais provável de condução das concentrações de Se no solo, comparando as previsões feitas por várias hipóteses (Tabela S1) com os padrões observados na análise de sensibilidade.