Mais

Interpolação espacial de 30 estações meteorológicas para outras áreas


Tenho dados mensais (e às vezes diários) sobre as temperaturas de cerca de 30 estações meteorológicas suecas em meados do século 19 que desejo interpolar para todo o país. Estou usando ArcGIS e Stata.

Nos anos posteriores, tenho dados sobre estações meteorológicas adicionais (cerca de 100), então pensei em usar os dados posteriores para calibrar um modelo usando as estações antigas para prever o tempo nas novas estações. Como conheço o clima real nas novas estações, posso calibrar para o modelo para obter o melhor ajuste possível. Mas não tenho certeza de qual é um bom método para conseguir um ajuste adequado (não quero correr o risco de overfitting, por exemplo).


Você provavelmente pode obter uma interpolação razoável usando uma regressão linear (assumindo que suas 30 estações meteorológicas sejam uma amostra representativa) usando elevação, latitude e distância da costa como variáveis ​​independentes com o dia como um fator. Eu fiz isso usando ArcGIS e R anteriormente.

Temperaturas diárias às 9h e 15h durante 10 dias em 2003 a partir de estações meteorológicas no sudeste da Austrália

Passos básicos:

  • Obtenha um modelo digital de elevação de sua área.
  • Obter vetor ou linha costeira raster
  • Gerar um raster de latitude (exemplo)
  • Gere uma distância do raster da costa (talvez com a distância euclidiana)
  • Para as variáveis ​​para as quais você não tem dados para cada estação, use a ferramenta Amostra ou Extrair Valores para Pontos para consultar o raster relevante. Eu só precisei fazer isso para a distância da costa, pois os dados da minha estação meteorológica continham lon, lat e elevação.
  • Insira a elevação, latitude e distância como variáveis ​​independentes, temperatura como variável dependente e dia como um fator em um modelo de regressão linear em r / spss / stata / etc ...
  • Se você obtiver um ajuste decente, use os coeficientes do modelo para criar uma expressão de calculadora raster (temp = α + βelev* elev + βlat* lat + βdist* dist) para estimar a temperatura da elevação, latitude e distância. Pode ser necessário fazer o script, pois obterá coeficientes diferentes para cada dia.

Este artigo avalia o desempenho de seis diferentes métodos de interpolação baseados em Sistema de Informação Geográfica: ponderação de distância inversa (IDW), função de base radial (RBF), interpolação polinomial global, interpolação polinomial local, krigagem e cokrigagem, usando o banco de dados de residências de Ohio desenvolvido entre 1987 e 2011. O método de interpolação de melhor desempenho a ser usado na previsão das concentrações de gás radônio nas áreas não medidas de Ohio, EUA, foi determinado pela validação das previsões do modelo com medidas de desempenho operacional. Além disso, este estudo realizou uma análise baseada em código postal que forneceu um quadro completo da distribuição da concentração de gás radônio em Ohio

O método RBF foi identificado como o método de melhor desempenho. Embora o método RBF tenha um desempenho significativamente melhor do que o IDW, ele foi estatisticamente semelhante aos outros métodos de interpolação. Os resultados da concentração de gás radônio prevista pelo RBF indicaram um aumento significativo no número de códigos postais que ultrapassaram os limites de ação da Agência de Proteção Ambiental dos Estados Unidos e da Organização Mundial da Saúde, indicando a necessidade de mitigar as concentrações de gás radônio de Ohio para níveis seguros para reduzir os efeitos na saúde. A abordagem demonstrada neste artigo pode ser aplicada a outras áreas afetadas pelo radônio ao redor do mundo.


Comparação de métodos de interpolação espacial para estimativa da distribuição da precipitação no Distrito Federal, Brasil

As informações climatológicas disponíveis do Distrito Federal não atendem aos requisitos de diagnóstico climático detalhado, pois não fornecem a resolução espacial necessária para fins de gestão de recursos hídricos. Climatologia anual e sazonal (1971-2000) de precipitação de 6 estações meteorológicas e 54 pluviômetros do Brasil Central foram usados ​​para testar oito métodos diferentes de interpolação espacial. Fatores geográficos (ou seja, altitude, longitude e latitude) explicam uma grande parte da precipitação na região e, portanto, modelos multivariados foram incluídos. O desempenho das estimativas foi avaliado por meio de validação independente usando o erro quadrático médio, o coeficiente de correlação e o critério de eficiência de Nash ‐ Sutcliffe. Ponderação de distância inversa (IDW), krigagem ordinária (OK) e a regressão multivariada com interpolação de resíduos por IDW (MRegIDW) e OK (MRegOK) realizaram os menores erros e a maior correlação e critério de eficiência de Nash-Sutcliffe. Em geral, os métodos de interpolação fornecem distribuições espaciais semelhantes de chuva onde quer que a rede de observação seja densa. No entanto, a inclusão de variáveis ​​geográficas no método de interpolação deve melhorar as estimativas em áreas onde a densidade da rede de observação é baixa. No entanto, a avaliação das incertezas usando um método geoestatístico fornece informações complementares e qualitativas que devem ser consideradas na interpretação da distribuição espacial da precipitação.

Esta é uma prévia do conteúdo da assinatura, acesso através de sua instituição.


2. Registros de Pico de Fluxo do USGS

[3] Para caracterizar a distribuição espacial de grandes inundações nos EUA, analisamos o Arquivos de pico de fluxo derivado de registros de estações de medição de fluxo do USGS e mantido como parte do Sistema Nacional de Informação de Água do USGS [ Lepkin e DeLapp, 1979] (os dados estão disponíveis em http://waterdata.usgs.gov/usa/nwis/nwis). O arquivo de fluxo de pico para cada estação contém valores para a maior descarga instantânea (fluxo de pico) para cada ano de água (1 de outubro a 30 de setembro) de operação da estação, juntamente com notas sobre os fatores que afetam o fluxo e a qualidade do registro de fluxo. Para os registros compilados durante o ano hídrico de 1997 (terminando em 30 de setembro de 1997), fluxos de pico anuais são relatados para 23.216 estações atuais e anteriores, juntas compreendendo mais de 0,5 milhões de valores de vazão de pico anuais.

2.1. Maiores inundações meteorológicas de bacias entre 2,6 e 26.000 km 2

[4] A partir dos arquivos de pico de fluxo de estações de medição de riachos com áreas de drenagem entre 2,6 e 26.000 km 2 (1 a 10.000 mi 2) e com 5 ou mais anos de registro, extraímos os 10% principais das descargas máximas anuais. O banco de dados resultante consistia em 43.645 fluxos de pico anuais de 18.735 estações. Cada estação tem de 1 a 15 picos de alta por estação, dependendo da duração do registro. A partir desses dados, rejeitamos quase 8.000 (cerca de 19%) dos fluxos de pico anuais que foram codificados nos arquivos de fluxo de pico estimados, influenciados por rompimentos de barragens ou afetados por regulação, desvio, urbanização, mineração, mudanças agrícolas ou canalização . O banco de dados resultante consiste em 35.663 fluxos de pico anuais de 14.815 estações de medição de fluxo nos Estados Unidos e em Porto Rico (Figura 1).

[5] Ao nos concentrarmos em bacias entre 2,6 e 26.000 km 2, e excluindo registros codificados como sendo afetados por fatores antrópicos, como regulação ou desvio, provavelmente reduzimos a influência desses fatores nos fluxos de pico anuais restantes. A inspeção dos registros retidos, entretanto, indica que muitas das descargas máximas anuais analisadas foram de fato afetadas pela regulamentação, desvio e urbanização em algum grau. Em suma, as práticas de codificação inconsistentes com o tempo e entre os vários escritórios que relatam esses dados tornam difícil isolar completamente os fluxos de pico anuais afetados por tais fatores apenas com base nas informações dos arquivos de fluxo de pico.

[6] Outros aspectos dos dados em sua forma atual também impedem uma avaliação quantitativa imparcial da distribuição espacial de grandes fluxos. Enquanto as estações de medição do fluxo do USGS medem o fluxo das bacias em todos os estados e em Porto Rico, a cobertura não é uniforme, com a densidade das estações correspondendo parcialmente à densidade populacional, evidente pelo grande número de estações ao longo da costa leste e outras áreas urbanas (Figura 1). Além disso, muitas bacias de drenagem incluídas na análise têm várias estações com áreas de contribuição sobrepostas, como na circunstância comum de uma série de estações ao longo de um rio individual. Nessas situações, os registros das descargas de pico anuais para essas estações podem não ser independentes porque a mesma enchente pode ser medida (e incluída nos arquivos de vazão de pico) em vários locais. Este fator é reduzido, mas não eliminado, com a exclusão de bacias maiores que 26.000 km 2. No entanto, o grande número e a ampla distribuição de estações presumivelmente superam os fatores antropogênicos retidos no banco de dados que podem afetar sistematicamente a distribuição espacial de grandes vazões de pico, pelo menos para avaliação qualitativa da distribuição espacial de grandes fluxos.

[7] A partir dos registros finais retidos de 35.663 fluxos de pico anuais de 14.815 estações de medição de riachos, um gráfico de pico de vazão versus área de drenagem mostra, como esperado, que bacias maiores geralmente têm picos de vazão maiores (Figura 2). No entanto, algumas bacias produzem fluxos maiores do que outras bacias de tamanho semelhante. Para distinguir o maior desses fluxos anuais máximos em relação à área de drenagem, estratificamos ainda mais os dados da Figura 2 nas descargas unitárias de ∼90º e ∼99º percentil (vazão de pico dividida pela área de drenagem) através do uso de um par de equações de lei de potência (Tabela 1) formulado para manter distribuições gerais semelhantes de áreas de bacias de drenagem em relação à população total das estações analisadas (Figura 3). Embora nos referamos a esses subconjuntos de altas descargas unitárias como os percentis ∼90º e ∼99º, eles são essencialmente descargas unitárias do percentil th99º e ∼99,9º com relação a todas as descargas máximas anuais registradas porque são derivados apenas dos maiores 10% de todas as descargas máximas anuais para cada estação.

Estratificação Equação Número de inundações Número de estações de medição de fluxo
∼ 90º percentil Qpk90 = 24,3 [km2] 0,57 3503 2088
∼99º percentil Qpk99 = 74 [km2] 0,53 397 284

2.2. Delineamento da bacia de drenagem

[8] Os 3503 fluxos que constituem as descargas unitárias do percentil th90 são de 2.088 (de 14.815) estações de medição de fluxo do USGS nos Estados Unidos e em Porto Rico. Para cada uma dessas 2.088 estações, as áreas de drenagem contribuintes foram delineadas dentro de um sistema de informação geográfica (GIS) usando um modelo de elevação digital de resolução de 1 km para a América do Norte (dados de elevação HYDRO1k obtidos em http://edcdaac.usgs.gov/gtopo30 /hidro). A resolução grosseira do modelo de elevação dificulta as análises quantitativas do SIG, relacionando as características do fluxo aos dados espaciais. No entanto, esses delineamentos aproximados permitem a exibição da distribuição espacial das áreas que produzem as maiores descargas unitárias em uma base nacional, ao invés de apenas as localizações dos pontos das estações de medição de riachos.


3 Resultados e discussão

3.1. Análise de Terreno

[15] A elevação média dentro dos buffers de 50 km ao redor das estações meteorológicas variou de 1.037 ma 5.040 m, com a maioria acima de 3.000 m (Figura 3a). Comparando com a elevação de cada estação, a elevação média dentro dos buffers de 50 km mostrou claramente os efeitos da suavização devido à resolução espacial de 1 km dos dados DEM e média dentro dos buffers (Figura 4). O gradiente médio da inclinação dentro dos buffers de 50 km variou de 0,4 a 13,7 graus (Figura 3b), enquanto a inclinação máxima variou entre 1,9 e 45,9 graus. A Figura 5 mostra o padrão de distribuição espacial dos aspectos de declive. A proporção de declives planos não foi apresentada porque tendia a ser muito pequena, variando de 0 a 0,052 esperada para uma estação a 0,234.

3.2. Viés das Estimativas SSM / I

[16] A Figura 6 mostra a tendência média das estimativas de SSM / I, como a razão das estimativas de SSM / I para a precipitação observada na estação para médias de todos os meses. Os vieses foram calculados com todos os anos com os dados disponíveis agrupados para um mês ou estação específica. Para a maioria das estações na área de estudo, os vieses estavam abaixo da unidade (ou subestimando). Locais com superestimação proeminente pelo SSM / I foram encontrados principalmente na parte norte do planalto tibetano. Enquanto a maioria dos estudos anteriores de intercomparação e validação sugeriram superestimação pelas taxas de precipitação baseadas em SSM / I, o algoritmo NESDIS mostrou variação regional significativa em vieses e, em alguns casos, subestimação significativa em regiões de latitude mais alta [ Ebert et al., 1996 Ebert e Manton, 1998 Adler et al., 2001 Kummerow et al., 2001 McCollum et al., 2000, 2002]. Esses estudos também indicaram fortes variações espaciais e temporais que exigem mais investigação em diferentes condições regionais.

[17] Existem várias razões possíveis para os preconceitos negativos proeminentes encontrados no planalto tibetano. Uma comparação zonal global por Ferraro et al. [1996] entre SSM / I e a análise de calibre por Legates e Willmott [1990] sugeriu que SSM / I subestima a precipitação em regiões de latitude média para latitude alta devido a exclusões de eventos quando neve e gelo estavam presentes no solo, mas superestima a precipitação em regiões tropicais. O algoritmo NESDIS é baseado na detecção do espalhamento na camada de chuva da atmosfera. No entanto, a espessura atmosférica acima do Platô Tibetano é um aspecto não representado nos estudos de validação anteriores realizados no nível do mar ou próximo a ele. A densidade do ar mais baixa e a superfície do platô relativamente fria e estéril devido à alta altitude podem causar diferenças reduzidas nos sinais de espalhamento entre a superfície do platô e a atmosfera do platô. Portanto, algoritmos desenvolvidos usando dados para áreas de baixa altitude podem produzir estimativas errôneas. Ebert e Manton [1998] afirmaram que embora o SSM / I seja bom em delinear padrões espaciais de eventos de chuva, o regime de chuva é claramente um fator que influencia a precisão das estimativas. Ferraro e Marks [1995] apontou que a taxa mínima de chuva detectável pelo algoritmo NESDIS é 0,5 mm / h, o que pode levar à perda de alguns eventos de chuva leve que são comuns no Platô Tibetano. Greene et al. [1997] também sugeriram que os vieses das estimativas do SSM / I podem ser dependentes das características dos eventos de chuva.

[18] Os resultados da regressão bivariada entre as estimativas de satélite e a precipitação observada na superfície são apresentados na Figura 7. Ambas as interceptações no Y eixo e os coeficientes de regressão (inclinações) mostraram padrões sazonais significativos. Para todo o período de estudo (1987-1999), o número de satélites em operação variou, o que acrescentou outra dimensão de variação nas estimativas de SSM / I. Para períodos com apenas um satélite disponível, uma cena só pode ser visitada no máximo duas vezes ao dia. Morrissey e Wang [1994] apontaram que tais limitações de amostragem podem causar subestimação sobre oceanos tropicais com ciclos diurnos significativos de nebulosidade e chuva. Argumentos semelhantes também podem ser feitos para o planalto tibetano, onde o padrão de precipitação diurna é bem conhecido durante a estação das monções [ Kuwagata et al., 2001 Liu et al., 2002]. Em termos da força das relações entre as estimativas de SSM / I e os valores observados da estação, o R 2 valores para os modelos de regressão bivariada estão mais ou menos em linha com estudos anteriores (Tabela 3). Por exemplo, Xie e Arkin [1995] comparou as estimativas baseadas em SSM / I com os dados de estação GPCC e CAMS para células de grade de 2,5 ° × 2,5 °. As correlações entre as estimativas mensais de SSM / I com base no algoritmo Grody e dados da estação nas zonas 20 ° –40 ° N e 20 ° –40 ° S foram 0,56 para o CAMS e 0,61 para os conjuntos de dados GPCC. Eles também usaram as estações CAMS na China e derivaram um coeficiente de correlação de 0,685 para o período de estudo de 3 anos. Baixo R 2 valores para os meses de inverno (Tabela 3) foram provavelmente devido ao tratamento de superfícies de neve / gelo pelo algoritmo NESDIS. Examinamos os dados mensais de cobertura de neve baseados no SSM / I do NESDIS (ftp://orbit35i.nesdis.noaa.gov/pub/arad/ht/rferraro/ncdc/). Este conjunto de dados contém frações médias mensais da cobertura de neve (0–1,0) para as grades de 1 ° × 1 °. Durante os meses de inverno (DJF), a maior parte do planalto tibetano foi coberta por neve, em comparação com todos os outros meses, quando apenas uma pequena parte tinha altas frações de cobertura de neve (Figura 8).

Modelo Interceptar Estimativas SSM / I Inclinação Coeficiente Padronizado t Significado R 2
JAN 3.354 JAN_EST 3.680 0.698 9.594 0.0000 0.487
FEV 6.572 FEB_EST 2.067 0.416 4.510 0.0000 0.173
MAR 10.672 MAR_EST 4.275 0.790 12.685 0.0000 0.624
ABR 14.902 APR_EST 1.179 0.575 6.918 0.0000 0.330
MAIO 31.144 MAY_EST 0.624 0.658 8.610 0.0000 0.433
JUN 45.632 JUN_EST 0.507 0.702 9.704 0.0000 0.493
JUL 50.253 JUL_EST 0.580 0.676 9.035 0.0000 0.457
AGO 60.870 AUG_EST 0.620 0.440 4.828 0.0000 0.194
SEP 43.640 SEP_EST 0.758 0.631 8.009 0.0000 0.398
OCT 20.561 OCT_EST 1.546 0.498 5.663 0.0000 0.248
NOV 4.992 NOV_EST 1.813 0.403 4.333 0.0000 0.162
DEZ 2.634 DEC_EST 0.867 0.074 0.732 0.4660 0.005
INVERNO 11.105 WIN_EST 4.296 0.630 7.995 0.0000 0.397
PRIMAVERA 47.556 SPR_EST 1.137 0.734 10.660 0.0000 0.539
VERÃO 155.596 SUM_EST 0.575 0.646 8.330 0.0000 0.417
OUTONO 55.380 FAL_EST 1.216 0.708 9.865 0.0000 0.501
MONÇÃO 218.617 MONS_EST 0.648 0.681 9.170 0.0000 0.464
ANUAL 20.644 ANN_EST 0.839 0.708 9.883 0.0000 0.502

[19] Finalmente, alguns dos estudos de validação usaram dados de precipitação por radar que geralmente ofereciam melhores estimativas regionais do que os dados de medidor convencionais. Na verdade, o algoritmo NESDIS foi ajustado com dados de radar das taxas de chuva. Em geral, as medidas de precipitação pontual normalmente subestimam a precipitação total regional [ Departamento de Meteorologia dos EUA, 1957 ]. Anagnostou et al. [1999] apontou que a diferença de área-ponto contribuiu com até 60% da variância em comparações de medidor de radar. Como as estimativas de SSM / I em grade de 1 ° × 1 ° foram reduzidas em escala por interpolação e em média dentro dos buffers de 50 km, as células com alta precipitação podem ser combinadas com os efeitos de células com precipitação mais baixa ou nenhuma precipitação. Este procedimento pode ter aumentado ainda mais a disparidade entre a precipitação da estação e as estimativas de SSM / I dentro dos buffers de 50 km. Considerando o fato de que os dados de precipitação da estação usados ​​neste estudo não foram corrigidos para os efeitos do vento e da neve, a quantidade de subestimação foi mais significativa do que parecia. Durante os meses mais frios, a precipitação corrigida pode ser 1,5-2,0 vezes os valores de precipitação medidos sobre o Platô Tibetano [ Ueno e Ohata, 1996]. Os resultados da análise de polarização apontam claramente para a necessidade de algoritmos regionalizados baseados em características locais e regionais para obter estimativas de precipitação precisas.

3.3. Modelagem Espacial Baseada em Regressão Múltipla

[20] A regressão Stepwise foi usada para selecionar variáveis ​​independentes que fazem contribuições significativas na explicação das variações na precipitação da estação. Por causa da colinearidade entre as variáveis ​​independentes, certas variáveis ​​do terreno não entraram nos modelos finais porque seus efeitos foram representados por outras variáveis ​​relacionadas. Os resultados da análise de regressão indicam que as estimativas SSM / I originais tiveram baixo poder de explicação da estrutura espacial da precipitação sobre o Platô Tibetano, especialmente para meses com extensa cobertura de neve e que as variáveis ​​de terreno e localização tiveram impacto significativo na precisão das estimativas de satélite. Ao usar estimativas de satélite para prever observações do solo sem as variáveis ​​de terreno e localização examinadas neste estudo, o R 2 os valores variaram de 0,005 (dezembro) a 0,624 (março), com média de 0,334 para todos os meses (Tabela 3). Quando as variáveis ​​de terreno e localização foram adicionadas ao processo de regressão, o R 2 valores melhoraram para variar de 0,217 (dezembro) a 0,739 (março) com uma média de 0,590 (Tabela 4). Os modelos sazonais e anuais foram em geral melhores do que os modelos mensais, com uma média R 2 de 0,470 antes das variáveis ​​de terreno e localização serem adicionadas e 0,675 após sua inclusão.

Resumo do modelo Somente com estimativas de satélite Com variáveis ​​de localização do terreno Variáveis ​​que entraram nos modelos (de acordo com a sequência de entrada)
R 2 Adj. R 2 Padrão Erro R 2 Adj. R 2 Padrão Erro
JAN 0.487 0.482 4.6 0.602 0.577 4.1 JAN_EST, SE, MIN_H, MAX_H, MEAN_SLP, W
FEV 0.173 0.165 10.8 0.412 0.380 9.3 FEB_EST, MIN_H, LAT, MAX_SLP, N
MAR 0.624 0.620 13.6 0.739 0.728 11.5 MAR_EST, LONG, LAT, NW
ABR 0.330 0.323 19.1 0.576 0.558 15.4 APR_EST, MIN_H, LONG, LAT
MAIO 0.433 0.427 23.5 0.691 0.674 17.7 MAY_EST, LONG, SE, S, SW
JUN 0.493 0.487 31.0 0.681 0.664 25.1 JUN_EST, LONG, SE, MEAN_SLP, STD_H
JUL 0.457 0.451 39.3 0.668 0.646 31.6 JUL_EST, SE, MAX_H, LAT, LONG, E
AUG b b AUG_EST (estimativas de satélite) não entrou no modelo, embora esteja correlacionado com AUG na significância de 0,05.
0.194 0.185 50.3 0.617 0.596 35.4 LAT, MAX_H, N, W, NE
SEP 0.398 0.392 31.2 0.704 0.685 22.5 SEP_EST, LAT, LONG, STD_H, MEAN_SLP, SE
OCT c c OCT_EST não entrou no modelo primeiro.
0.248 0.241 20.4 0.615 0.594 14.9 LONG, LAT, MIN_H, OCT_EST, SE
NOV d d NOV_EST não entrou primeiro.
0.162 0.154 6.4 0.558 0.534 4.8 LAT, LONG, NOV_EST, MEAN_H, MAX_H
DEC e e DEC_EST não é estatisticamente significativo a 0,05.
0.005 0.000 4.9 0.217 0.192 4.4 STD_H, SE, MEAN_SLP
INVERNO 0.397 0.391 16.5 0.476 0.459 15.6 WIN_EST, SE, MIN_H
PRIMAVERA 0.539 0.535 45.9 0.700 0.684 37.8 SPR_EST, LONG, LAT, MIN_H, SE
SUMMER f f SUM_EST entrou primeiro, mas foi eliminado na etapa 5 e depois reinserido na etapa 9.
0.417 0.411 103.9 0.711 0.686 75.9 SE, LAT, LONG, MAX_H, SW, W, SUM_EST, NW
OUTONO 0.501 0.496 45.2 0.711 0.699 34.9 FAL_EST, SE, LONG, LAT
MONSOON g g MONSOON_EST foi eliminado no passo 8 com R2 = 0,737.
0.464 0.459 143.9 0.732 0.714 104.6 SE, LONG, LAT, STD_H, MAX_H, MEAN_SLP
ANUAL 0.502 0.497 15.3 0.722 0.707 11.7 ANN_EST, SE, LONG, LAT, MAX_H
  • a O ajustado R 2 valores (Adj. R 2) refletem o impacto da colinearidade entre as variáveis ​​independentes. O erro padrão das estimativas (Std. Error) é outra medida do desempenho do modelo.
  • b AUG_EST (estimativas de satélite) não entrou no modelo, embora esteja correlacionado com AUG na significância de 0,05.
  • c OCT_EST não entrou no modelo primeiro.
  • d NOV_EST não entrou primeiro.
  • e DEC_EST não é estatisticamente significativo a 0,05.
  • f SUM_EST foi inserido primeiro, mas foi eliminado na etapa 5 e depois reinserido na etapa 9.
  • g MONSOON_EST foi eliminado na etapa 8 com R2 = 0,737.

[21] Há um total de 18 modelos: 12 mensais, 4 sazonais, 1 para os meses das monções (maio a setembro) e 1 anual (como médias de todos os meses). Das variáveis ​​independentes além das estimativas de SSM / I, as variáveis ​​de localização entraram na maioria dos modelos. Tanto o LAT quanto o LONG entraram com 13 modelos cada, embora nem sempre entrassem necessariamente no mesmo modelo juntos. A variável de terreno que entrou nos modelos com mais frequência foi a proporção de declives do aspecto sudeste (13 modelos), seguida pela elevação máxima dentro dos buffers de 50 km (7 modelos), elevação mínima (6 modelos), declive médio (5 modelos), desvio padrão de elevação (4 modelos) e aspecto oeste (3 modelos). As proporções de encostas voltadas para SW, NW e N entraram em 2 modelos cada. A inclinação plana (aspecto 0) e a inclinação mínima não entraram em nenhum modelo, enquanto a inclinação máxima, a inclinação média e as variáveis ​​de aspecto restantes (NE, E e S) entraram em 1 modelo cada. Todas as variáveis ​​que permaneceram nos modelos foram estatisticamente significativas ao nível de 0,05.

[22] Quanto à variação temporal do efeito das variáveis ​​de terreno e localização, o modelo para março teve o maior R 2, seguido pelo modelo para setembro. Os modelos para dezembro e fevereiro tiveram baixa R 2 valores. De fato, para dezembro, a precipitação estimada do SSM / I original não se correlacionou com a precipitação observada com significância estatística (0,05). Para agosto, a precipitação estimada do SSM / I também não foi incluída no modelo, embora tenha sido correlacionada com a precipitação observada no solo ao nível de significância de 0,05. Para outubro e novembro, as estimativas do SSM / I foram incluídas nos modelos, mas não entraram nos modelos primeiro. Quanto aos modelos sazonais, o modelo de inverno teve o menor R 2 valor, novamente como resultado da presença de neve e gelo na maior parte do planalto tibetano.

[23] Para simplificar as estruturas do modelo, as variáveis ​​independentes que entraram no modelo uma ou duas vezes o total foram consideradas marginais e eliminadas do procedimento para derivar os modelos finais. Portanto, apenas oito variáveis ​​de terreno e localização permaneceram (LAT, LONG, MAX_H, MIN_H, STD_H, MEAN_SLP, SE e W). A Tabela 5 apresenta os modelos finais de regressão baseados na regressão stepwise, bem como na seleção manual da variável independente. Por exemplo, LAT e MAX_H foram excluídos antecipadamente para garantir que a estimativa SSM / I entraria no modelo para agosto. Foi feita uma tentativa de usar a mesma abordagem para dezembro, mas sem sucesso porque a precipitação estimada do SSM / I não está correlacionada estatisticamente com a precipitação observada no solo. No entanto, a precipitação estimada do SSM / I foi “forçada” no modelo para refletir a variabilidade interanual, embora não fosse estatisticamente significativa. Observou-se que para os modelos de verão e monções (maio a setembro), as estimativas do SSM / I foram eliminadas na fase final. Portanto, para essas temporadas, as versões do modelo anteriores à eliminação das estimativas do SSM / I foram consideradas as melhores. O nível de significância de 0,1 foi usado no processo de seleção de variáveis ​​para melhorar o poder de previsão, mas quase todas as variáveis ​​nos modelos foram significativas ao nível de 0,05.

Mês / Temporada Modelo de regressão R 2
Janeiro JAN = −4,215 + 3,166 JAN_EST + 41,195 SE - 0,002 MIN_H + 0,002 MAX_H - 0,706 MEAN_SLP + 32,281 W 0.602
fevereiro FEB = 72,797 + 1,355 FEB_EST - 0,006 MIN_H - 1,556 LAT + 74,736 W - 1,211 MEAN_SLP 0.406
Março MAR = −30,556 + 3,753 MAR_EST + 1,057 LONG - 1,575 LAT - 0,003 MIN_H 0.738
abril APR = −21,991 + 0,460 APR_EST + 130,297 SE - 0,008 MIN_H + 1,271 LONGO - 2,157 LAT 0.591
Maio MAIO = -170,98 + 0,236 EST_ MAIO + 2,173 LONGO + 254,112 SE + 3,953 MEAN_SLP - 0,066 STD_H - 0,007 MIN_H 0.717
Junho JUN = -170,136 + 0,265 JUN_EST + 2,178 LONG + 236,862 SE + 6,488 MEAN_SLP - 0,101 STD_H 0.681
julho JUL = 203,292 + 0,233 JUL_EST + 313,315 SE - 0,02 MAX_H - 8,907 LAT + 2,467 LONG 0.652
agosto AUG = -1,612 + 804,741 SE + 0,212 AUG_EST + 7,159 MEAN_SLP - 0,098 STD_H 0.436
setembro SEP = −36,798 + 0,278 SEP_EST - 4,503 LAT + 2,403 LONG - 0,08 STD_H + 4,004 MEAN_SLP + 211,588 SE 0.704
Outubro OCT = −51,113 + 1,536 LONG - 1,876 LAT - 0,010 MIN_H + 0,568 OCT_EST + 158,320 SE - 0,029 STD_H + 107,318 W 0.643
novembro NOV = 3,384 - 0,003 MIN_H - 0,757 LAT + 0,311 LONG + 1,031 NOV_EST + 42,748 SE 0.541
dezembro DEC = −5,172 + 0,635 DEC_EST a a DEC_EST não foi estatisticamente significativo no nível 0,1, mas forçado no modelo.
+ 0,013 STD_H + 48,507 SE - 0,479 MEAN_SLP
0.220
Inverno WINTER = 0,939 + 3,644 WIN_EST + 181,552 SE - 0,005 MIN_H + 130,083 W - 1,360 MEAN_SLP 0.512
Primavera MOLA = -170,805 + 0,618 EST_SPR + 4,161 LONGA - 4,947 LAT - 0,013 MIN_H + 342,192 SE 0.700
Verão SUMMER = 397.674 + 0.147 SUM_EST + 1067.505 SE - 25.590 LAT + 8.087 LONG - 0.050 MAX_H + 0.019 MIN_H 0.678
Outono QUEDA = −37,003 + 0,432 FAL_EST + 390,810 SE + 3,935 LONG - 7,304 LAT - 0,115 STD_H - 0,013 MIN_H + 4,505 MEAN_SLP 0.741
Monção MONSOON = 275,768 + 0,190 MONS_EST + 1464,711 SE + 13,241 LONG - 33,701 LAT - 0,139 STD_H - 0,039 MAX_H 0.715
Anual ANUAL = 14,99 + 0,229 EST_ANNA + 169,663 SE + 1,511 LONGO - 3,532 LAT - 0,005 MAX_H 0.722

[24] Os sinais dos coeficientes de regressão indicam o tipo de contribuição das variáveis ​​independentes para explicar a variância na precipitação da estação. Das três variáveis ​​de terreno / localização que entraram nos modelos com mais frequência (LAT, LONG e SE), os coeficientes para LAT foram consistentemente negativos, indicando diminuição da precipitação da estação para a mesma quantidade de estimativas de SSM / I movendo-se para o norte (Tabela 5). Os coeficientes para LONG foram consistentemente positivos, indicando o aumento da precipitação da estação para a mesma quantidade de estimativas de SSM / I movendo-se para o leste. Essas duas variáveis ​​eram indicativas do impacto das distâncias às fontes de umidade sobre o planalto tibetano. Estudos anteriores sugeriram que existem dois caminhos principais de transporte de umidade, um vindo do Oceano Índico / Baía de Bengala para a parte sudeste do planalto e um do Mar da Arábia para a parte ocidental do planalto [ Ding, 1991 Yang et al., 1989 Tang et al., 1994]. A tendência decrescente para noroeste sugere a significância das fontes de umidade do sudeste, enquanto os dados SSM / I originais subestimaram esta tendência. Da mesma forma, os coeficientes para SE também foram consistentemente positivos, indicando que as áreas com encostas predominantemente voltadas para o sudeste tenderam a receber mais chuvas, e que o fluxo de ar vindo do sudeste tem grande significado na produção de precipitação durante o ano.

[25] Durante alguns meses de outono e inverno (janeiro, fevereiro e outubro) e inverno, as encostas voltadas para o oeste tiveram um efeito positivo. Como os cinturões de fluxos atmosféricos predominantes se deslocam para o sul durante o outono e inverno, os fluxos oeste desempenham um papel importante na produção de precipitação, especialmente para a parte ocidental do Platô Tibetano. A única outra variável com alguma consistência foi MIN_H (negativa, exceto para o verão). Baixas elevações mínimas nos buffers de 50 km freqüentemente coincidem com áreas na margem sudeste do Planalto, uma região com precipitação relativamente alta. Por outro lado, a presença de MAX_H foi mais proeminente para os valores sazonais (coeficientes negativos). Uma vez que o conjunto de dados usado neste estudo é limitado a essas estações na China, ele reflete principalmente o efeito de barreira de chuva / sombra de chuva das cadeias de montanhas da região. Portanto, os buffers com maior elevação máxima frequentemente coincidiram com áreas com cadeias de montanhas no planalto e menores valores de precipitação para as mesmas estimativas de SSM / I. Todas as outras variáveis ​​de terreno / localização podem ter coeficientes positivos ou negativos.

3.4. Um estudo de caso: 1999

[26] Para demonstrar como os modelos obtidos neste estudo podem ser usados ​​para melhorar as estimativas de precipitação SSM / I sobre o Platô Tibetano, aplicamos os modelos aos dados de janeiro, abril, julho e outubro de 1999. Primeiro, para cada Célula de grade de 1 ° × 1 °, um buffer de 50 km foi desenvolvido no centro e usado para calcular as características do terreno dentro do buffer usando o DEM de 1 km × 1 km. Em seguida, as estimativas de precipitação SSM / I originais foram usadas em combinação com as variáveis ​​de terreno e localização para calcular as estimativas de precipitação modeladas. Finalmente, os dados de precipitação pontual foram interpolados usando krigagem. A Figura 9 mostra as estimativas de precipitação modeladas interpoladas para julho de 1999. Para a maior parte, a precipitação modelada manteve a estrutura espacial geral das estimativas SSM / I originais (Figura 2), com alguns padrões de variação local sendo suavizados. No entanto, também é bastante óbvio que existiam diferenças significativas entre os dois. A precipitação modelada foi geralmente mais alta do que as estimativas SSM / I originais em todo o planalto tibetano, especialmente em áreas da parte central do planalto. O gradiente SE-NW tornou-se mais proeminente do que as estimativas SSM / I originais porque o modelo de julho incluiu ambas as variáveis ​​de localização (LAT e LONG).

[27] Comparamos as estimativas de precipitação modeladas com a precipitação da estação, extraindo dados de campo de precipitação para os buffers de 50 km das estações meteorológicas. A Figura 10 é o gráfico de dispersão das estimativas SSM / I originais de julho e estimativas modeladas contra a precipitação da estação. A análise de regressão revelou que a precipitação modelada teve um R 2 valor de 0,65 em comparação com 0,49 das estimativas SSM / I originais, e uma relação de quase 1: 1 com a precipitação da estação. A Tabela 6 contém os resultados da comparação para janeiro, abril, julho e outubro de 1999. As melhorias nas estimativas SSM / I originais podem ser vistas em todos esses meses, embora em janeiro o desempenho do modelo ainda tenha sido muito ruim. O erro quadrático médio (RMSE) oferece outra medida de desempenho do modelo. Novamente, melhorias podem ser vistas em todos os meses examinados (Tabela 6).

SSM / I original SSM / I modelado
R 2 Erro padrão RMSE R 2 Erro padrão RMSE
Janeiro 0.013 5.88 6.68 0.190 5.33 5.36
abril 0.084 37.29 41.68 0.699 21.37 25.22
julho 0.493 42.56 50.00 0.654 35.14 34.28
Outubro 0.145 40.25 57.84 0.339 35.40 40.23
  • a Resultados de regressão (R ​​2 e erro padrão das estimativas) e erros de raiz quadrada média (RMSE) são apresentados para 35 estações que tinham dados para aquele ano.

[28] A avaliação acima, entretanto, não inclui as áreas sem quaisquer observações da estação. Devido à ausência de dados observados nessas áreas, usamos um conjunto de dados diferente como referência para comparação. Parameter-elevation Regressions on Independent Slopes Model (PRISM) is an expert system to produce gridded precipitation data on the basis of point data and DEMs [ Daly et al., 1994 , 2002 ]. It has been used successfully to generate precipitation climatology maps for various regions in the United States (http://www.ocs.orst.edu/prism/prism_new.html). A spatial data set of the long-term precipitation norm (1961–1990) was developed using the PRISM system at a 4-km resolution [ Daly et al., 2000 ], on the basis of observations at over 2500 stations across China. The monthly PRISM data were summarized by the 50-km buffers at the 1° × 1° grids and then compared with the long-term means (1987–1999) of the original SSM/I and the modeled precipitation estimates (calculated using the long-term SSM/I means) for the months of January, April, July, and October. Figure 11 shows that the PRISM precipitation for July had a similar spatial pattern to the modeled estimates of July 1999, but with greater details because of a higher spatial resolution. Regression analysis, based on 327 grid points within the approximate range of the Tibetan Plateau, revealed that for these months examined, the modeled precipitation estimates had higher R 2 values when regressed against the PRISM data than the original SSM/I estimates (Table 7), and with lower RMSE values except for January. Both original SSM/I and modeled precipitation estimates were significantly lower than the PRISM July precipitation at a few grid points, which resulted in lower than expected R 2 values. Had the largest 4 outliers been excluded, the R 2 values would have increased to 0.5696 and 0.6545 for the original SSM/I and modeled precipitation estimates and the RMSE lowered to 61.57 and 46.83, respectively.

Original SSM/I Modeled SSM/I
R 2 Erro padrão RMSE R 2 Erro padrão RMSE
Janeiro 0.171 6.69 7.48 0.216 6.50 9.64
abril 0.519 27.66 32.10 0.620 24.55 25.18
julho 0.358 90.86 102.25 0.448 84.20 89.46
Outubro 0.396 23.35 30.13 0.671 17.22 17.45
  • a Results of regression (R 2 and standard error of estimates) and root-mean-square errors (RMSE) are presented. The comparison was based on 327 1° × 1° grid points within the approximate range of the Tibetan Plateau.

Introdução

Foot-and-mouth disease (FMD) is a highly infectious viral disease that affects cloven-hoofed animals and has the potential to cause significant economic impact. Rapid disease detection and implementation of control measures to limit geographic spread are high priorities during an outbreak (James and Rushton, 2002 Thompson et al., 2002 Haydon et al., 2004). The effectiveness of control measures can be influenced by characteristics of the virus, geography, livestock density and farm management, and environment in the area of introduction. FMD transmission occurs mainly via droplet nuclei excreted from infectious animals to other animals in close proximity infectious animals can transmit the virus to susceptible animals in as little as 24 h (Alexandersen et al., 2003). The most common FMD transmission routes include direct contact between animals, indirect contact via fomite movement (e.g., vehicles or people), and in some areas, ingestion of infected animal products (Alexandersen et al., 2003). Within a livestock population, different species present different challenges to control FMD. At the individual animal level, cattle are considered most susceptible to airborne FMD spread, as their inhaled dose is likely to be larger than other livestock species due to greater lung capacity (Alexandersen et al., 2003). Ruminants have been shown experimentally to become infected with as little as 10 tissue culture 50% infective doses (TCID50), compared to swine at greater than 10 3 TCID50 (Sørensen et al., 2000 Alexandersen et al., 2003). Although swine have been shown to be relatively resistant to airborne FMD infection, infected swine are an important source of aerosolized FMD virus and are capable of excreting 100 to 1000 times more virus than infected sheep or cattle (Alexandersen and Donaldson, 2002). In the silent spread phase of the 2001 United Kingdom outbreak—prior to imposition of a national ban on livestock movements—FMD spread was attributed mainly to movement of infected livestock, mostly sheep, between premises or through live animal markets before clinical signs were apparent (Gibbens et al., 2001 Haydon et al., 2004). After the national ban on livestock movements, disease response efforts reduced the risk of the most common routes of FMD transmission however, local area spread, which included airborne transmission of the virus, remained difficult to mitigate. In addition to the 2001 UK outbreak (Mikkelsen et al., 2003), airborne spread has been implicated in FMD outbreaks in other countries (Gloster et al., 1982 Daggupaty and Sellers, 1990 Sørensen et al., 2000).

The risk of airborne FMD transmission depends, in part, on the strain or serotype of the virus, topographic factors, the type and number of animals infected (i.e., virus production and concentration), the type and number of animals located downwind from infected animals (i.e., exposures), and weather conditions influencing viral decay (Donaldson, 1972 Cannon and Garner, 1999 Sørensen et al., 2000 Donaldson and Alexandersen, 2002 Alexandersen et al., 2003 Mikkelsen et al., 2003 Colenutt et al., 2016 Van Leuken et al., 2016). Under ideal weather conditions, airborne FMD transmission can occur over short or long range distances (Donaldson et al., 1982 Gloster et al., 2005), and virus has been previously shown to infect susceptible livestock located as far as 250 km downwind from infected premises under suitable weather conditions (Gloster et al., 1982 Sørensen et al., 2000). Aerosolized FMD virus can be dispersed beyond quarantine zones established around detected, infected premises as part of a control program (Donaldson and Alexandersen, 2002).

The U.S. Department of Agriculture’s Foot-and-Mouth Disease Response Plan mandates a minimum Control Area of at least 10 km beyond the perimeter of the closest infected premises following FMD detection (USDA-APHIS, 2014). However, the FMD Response Plan is designed to have the flexibility to adapt the response to outbreak characteristics including evidence of or circumstances favorable to airborne transmission. The United States covers a large, and diverse, geography with widely varying climatic conditions. An enhanced understanding of how weather conditions in the area of infection affect the risk of airborne transmission would allow response officials to consider actual, local weather conditions present during an outbreak while making decisions on control strategies, including Control Area size.

Based on a combination of experimental and observational studies, aerosolized FMD is only viable under certain weather conditions. Experimental data suggest FMD virus infectivity is maximized at relative humidity levels greater than 60% (no known upper bound) and drastically reduced below 55% (Donaldson, 1972). Based on previous FMD outbreaks in which airborne spread was implicated, FMD virus can survive in the environment at temperatures as high as 27 °C (Gloster et al., 1982 Mikkelsen et al., 2003). The exact temperature range for which FMD virus is destabilized is unclear however, and there is no known minimum temperature at which FMD virus inactivation occurs (Donaldson, 1972). Presence of cloud cover, absence of precipitation, stable wind direction, and low to moderate wind speeds are thought to maintain aerosolized FMD virus stability, increasing the possibility of airborne transmission between premises (Hugh-Jones and Wright, 1970 Gloster et al., 1981 Sørensen et al., 2000 Gibbens et al., 2001 Sørensen et al., 2001 Mikkelsen et al., 2003 Gloster et al., 2005).

In the United States, there has been limited research to estimate the risk of airborne FMD spread. The objective of this analysis was to identify seasonal and geographic differences in patterns of environmental conditions favorable to airborne FMD spread in the United States.


TECHNOLOGY

APOGEO Are you building all of your own hardware?

Our founders and partners—Moog, Moog Broad Reach, and Millennium Engineering and Integration Company—are industry leaders in designing, build- ing and operating space sensors, systems and missions, with combined experience of more than 70 years.

Moog is a highly experienced provider of spacecraft systems for both government and commercial customers, with annual revenues of $2.6 billion. For more than 40 years, the international space industry has relied on Moog products for commercial, military and civil/scientific satellite and applications. Moog Broad Reach, founded in 1997 as Broad Reach Engineering and acquired in 2013 by Moog, has a long heritage in mission design and development of instruments and flight systems. Moog Broad Reach specializes in space avionics, systems and software, and built the gold standard for radio occultation sensors currently on orbit.

Millennium Engineering and Integration Company (MEI) is an employee-owned small business and a premier space systems engineering company, with annual revenues of $90 million. MEI has more than 15 years of experience as a leading provider of space systems engineering, satellite integration and testing, and launch and on-orbit operations for NASA, the U.S. Air Force and the Missile Defense Agency.

APOGEO How will you get your satellites into orbit?

Our current plan is to launch the first four satellites as a secondary payload by the end of 2016, with the next eight satellites going up on a dedicated launch vehicle by the end of 2017. However, we will continue to look at any opportunities that could get us to orbit and start delivering data sooner.


2 respostas 2

The problem with your maps is not the interpolation method you're using, but the way ggplot displays density lines. Here's an answer to this: Remove gaps in a stat_density2d ggplot chart without modifying XY limits.

The density lines go beyond the map, so any polygon that goes outside the plot area is rendered inappropriately (ggplot will close the polygon using the next point of the correspondent level). This does not show up much on your first map because the interpolation resolution is low.

The trick proposed by Andrew is to first expand the plot area, so that the density lines are rendered correctly, then cut off the display area to hide the extra space. Since I tested his solution with your first example, here's the code:

The only differences is that I used min()- / max() + instead of fixed numbers and coord_equal to ensure the map wasn't distorted. In addition, I manually specified a greater number of levels (using bin ), since by increasing the plot area, stat_density automatically chooses a lower resolution.


Materials and Methods

Geographic Interpolation of Endemism (GIE)

We propose the use of a kernel interpolation function, a method commonly used in Geographic Information Systems (GIS) analysis and implemented in several GIS software, to delimit areas of endemism. This interpolation method is based on the definition of circular areas of influence around point occurrences of a phenomenon. Within the area of influence, which is usually defined by the user, the influence of the phenomenon decreases from the point to the limits according to a Gaussian function [19]. For instance, in an epidemiological study of Rabies in China, the area of influence around each infected subject reported was defined as the range of subject´s movement, reflecting transmission probability [20]. The kernel density function estimates the density of occurrence of the phenomenon based on the overlap of the areas of influence [19]. Thus, the results are summarized on a map, expressed as a surface that indicates estimated values of point density. In the method proposed here, the distributional overlap between species is estimated through the distance between centroids of each species distribution range. This method can be applied for identifying areas of endemism through the following sequence of procedures:

  1. Given a set of occurrence points, the centroid of the distribution of each species is estimated through the arithmetic mean of the latitude and longitude of its points (Fig. 1a).
  2. The distance between the centroid and its farthest point of occurrence is measured for each species (Fig. 1b), and this value is used to sort the species into categories of range size (Fig. 1c). The definition of these categories is necessary to define the area of influence of the centroid, as described below, which is a requirement for the kernel index estimation [19].
  3. For each category a value of a radius around the centroid is defined, in order to delimit a circular area of influence of each species range (Fig. 1d). This value can be established through the maximum value of distance between the centroid and the farthest point of each category. For example, in this study all species with up to 100 km of distance between the centroid and the farthest point were grouped in the same category, and this value was defined as the radius around the centroid of all species in the category. The area of influence of each species is a generalization of its distribution range, and thus it must be defined as realistically as possible. Grouping species with differently sized distribution ranges (e.g., species with up to 50 km together with those up to 200 km of maximum distance between the centroid and its farthest point) could result in the overestimation of the range of the more restricted species.
  4. For each category, the overlap between the areas of influence of the species (Fig. 1d) is estimated by the kernel algorithm. The area of influence of each species is expressed as a value that decreases from the centroid to the limits of the circular area according to a Gaussian function (Fig. 1e). The overlap between the areas of influence is estimated through the sum of the values of the overlapping portion, resulting in the kernel index (k). Consequently, the kernel index varies spatially according to the sum of the values of each area of influence, generating a series of overlapped Gaussian curves (Fig. 1e, f). These curves are rasterized, generating a map of density of overlap of areas of influence of species (Fig. 1f), and the kernel index is an indicator of the degree of species distribution overlap.
  5. The results of steps 3 and 4 can be expressed separately for each category or assembled in a consensus map of areas of endemism (Fig. 2). The spatial variation of the kernel index can be displayed with color hues or with isolines (level curves) representing equal values of the index (Fig. 2). The latter option is useful to show the hierarchy between areas of endemism.

a: a centroid is estimated for the points of occurrence of each species. b: For each species, the distance between the centroid and its farthest point is measured. c: species are organized in groups, according to the distance measured in step b. d: This distance is used to define a circular area of influence around each species centroid. This procedure makes it possible to quantify the overlap between areas of distribution among species. e: The degree of overlap between species areas of influence is measured according to a Gaussian function around each species centroid. f: The density of species on each area of overlap, weighted by the degree of overlapping, is converted into interpolated curves using the kernel interpolation function (at left). These curves can be rasterized for display on maps.

Shaded areas indicate the areas of endemism, dashed lines indicate the major areas of endemism delimited according to the kernel index. The insert shows the Brazilian biomes, discussed in the text.

To perform these procedures, a software that calculates the area of influence of each species, as well as an ArcGIS toolbox to implement the method described above, are available in the S1 File in Supporting Information.

Applying GIE to Brazilian spiders

We applied the method described above to delimit areas of endemism of spiders in Brazil using a database of all published distribution records of species described between 1767 and 2013 and two online databases: GBIF [21] and speciesLink [22]. The database includes 3,425 species distributed in 25,072 records (meaning at least one individual of a species collected) and 3,787 localities. About 40% of the species were represented only by single records, 45% had between 2 and 15 records, 10% had between 16 and 60 records and only 2% of the species showed more than 100 records (S1 Fig.). All coordinates reported in the literature and online databases were checked using the ArcGIS software and vector layers of the political boundaries of Brazil to determine whether they actually fit the municipalities and states mentioned in the original data. Of these, 59% of the records were in the correct coordinates. The records that presented incorrect coordinates were georeferenced, as well as records that had no coordinates originally reported. The georeferencing was based on gazetteers and online databases, and 32% of the records were georeferenced in specific localities and only 8% were georeferenced by the location of the municipality. The species taxonomy follows Platnick [23], and species considered nomina dubia were excluded from the analyses. These same records and species were used in the comparative analysis with PAE and NDM. For analysis through GIE the species were classified in nine groups, according to the distance between the centroid and the farthest point: up to 50 km, 51–200 km, 201–400 km, 401–600 km, 601–800 km, 801–1,000 km, 1,001–1,500 km, 1,501–2,000 km and between 2,001 and 3,299 km. Since the definition of these classes can affect the number and location of the areas of endemism, we repeated the analysis with two other categorization schemes: a more inclusive classification with five categories (up to 50 km, 51–400 km, 401–600 km, 601–800 km, 801–3,299 km) and other less inclusive, with 18 categories (up to 25 km, 26–50 km, 51–100 km, 101–200 km, 201–300 km, 301–400 km, 401–500 km, 501–600 km, 601–700 km, 701–800 km, 801–900 km, 901–1,000 km, 1,001–1,300 km, 1,301–1,600 km, 1,601–1,750 km, 1,751–2,000 km, 2,001–2,500 km, 2,501–3,299 km). To compare results, we used Pearson correlation. To generate the consensus map of areas of endemism, the values of the kernel index of each category were standardized between 0 and 1 before assembling the maps. The number of records of a species can affect the position of its distributional centroid, consequently influencing the estimate of the overlap between species in GIE. We estimated this effect through a rarefaction procedure, in which we randomly removed 10, 20 and 30% of the occurrence points and measured the mean deviation of the centroids of the species in 100 randomizations.

The analysis with PAE was based on a presence/absence matrix of spider species over a grid with 168 2×2° cells, completely covering the Brazilian territory (S2 File). As the size of the grid cells can influence the results, we tested several cell sizes (0.5° to 5°) and used the size that allowed the identification of more areas of endemism. The matrix was analyzed through the software TNT [24], based on twenty trees generated by random-addition sequences, followed by TBR Branch Swapping, retaining 20 trees per replicate. The shortest trees obtained were submitted to an additional round of TBR to assure global optimum was found. The trees obtained were rooted in a hypothetical cell with all taxa absent. The areas of endemism were delimited from clades unambiguously supported by at least one non-homoplastic species occurrence, identified in the strict consensus tree.

The same database was analyzed by NDM using the program VNDM [25] (matrix in S3 File), with 2×2° cells. Search factors were set to retain areas with scores equal or above one and presenting one or more endemic species. The search was repeated 100 times, keeping overlapping areas only if 90% of the species in each area are unique. We did not use any parameters to assume the presence of the species in places where they have not been recorded. The results were summarized through the procedure “consensus flexible areas of endemism”, gathering areas that share at least 40% of their endemic species (for more details see [26]).

The results obtained in GIE were compared to results from PAE and NDM through the number of synendemic species (endemic species occurring together in a given area) that supported areas of endemism spatially congruent between methods. In these cases, we consider that areas identified with the highest number of endemic species should indicate a better fit between the boundaries of the area of endemism and the distribution of its species. We also compared the number of areas identified and visually evaluated the overlap between areas generated by each method. Both NDM and GIE show indexes to quantify the support of each area of endemism, so we analyzed the correlation between the score of the areas obtained through these methods using Pearson correlation analysis in Past 1.95 [27]. This analysis was based on values from grid cells of NDM, so the same grid was overlapped to GIE consensus map and 10 random points were used to estimate the average value of the kernel index for each cell.


Present address: Present address: Max Planck Institute for Developmental Biology, Tübingen 72076, Germany.,

Afiliações

Department of Zoology and Physiology, University of Wyoming, Laramie, 82071, Wyoming, USA

Department of Biology, Box 351800, University of Washington, Seattle, 98195, Washington, USA

George Wang & Raymond B. Huey

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Você também pode pesquisar este autor no PubMed Google Scholar

Contribuições

M.E.D., G.W. and R.B.H. conceived the project, designed the analyses and wrote the paper M.E.D. and G.W. collated weather station data and did temperature and metabolic rate calculations.

Autor correspondente


Assista o vídeo: Prof. Zbigniew Karaczun: Musimy przyzwyczaić się do upałów, gwałtownych burz, trąb powietrznych (Outubro 2021).