Mais

Como encontrar as coordenadas médias de um cluster de pontos de uma camada de pontos no QGIS?


Eu tenho um conjunto de pontos de coordenadas. Os pontos são distribuídos de tal forma que alguns pontos são agrupados em torno de uma área específica. Existe uma opção para descobrir as coordenadas médias de toda a camada de pontos. Gostaria de saber se existe alguma maneira no QGIS de descobrir as coordenadas médias dos pontos de uma área específica de uma camada de pontos.


Você precisa fazer isso em um processo de duas etapas usando oVetor-> Ferramentas de Análise-> Coordenadas Médiasferramenta na segunda etapa. Esta ferramenta retornará as coordenadas médias para conjuntos de pontos dentro de uma camada se eles tiverem um campo de ID exclusivo. Então, se você tem uma camada de polígono que define suas áreas, faça uma junção espacial (Vetor-> Gerenciamento de Dados-> Atributos de associação por localização) para atribuir seus pontos com o id do polígono (área) e então usar a ferramenta Coordenadas médias, especificando o novo campo.

Você pode já ter IDs únicos ou uma camada de polígono, mas se não tiver, você pode criar uma rede arrastão (Vetor-> Ferramentas de Pesquisa-> Grade de Vetor) para definir os pontos como um método para definir as áreas. Alternativamente, se suas áreas são definidas por uma camada raster, então você pode usar oAmostragem pontualplugin para atribuir os pontos com base em seu raster. Ou, se quiser atribuí-los por localização sem uma camada vetorial ou raster, você precisará criar um algoritmo para fornecer um novo atributo com base nas coordenadas de cada ponto (possivelmente usando alguma abordagem baseada em módulo).


Pontos em coordenadas e shapefile em ft - Não alinhe mesmo na mesma projeção

Estou tentando executar uma contagem de ponto no polígono no QGIS. Eu tenho um arquivo de forma dos códigos postais de San Diego em NAD83 (2230 EPSG). Eu tenho um arquivo de texto delimitado de pontos com coordenadas lat / lon.

No QGIS, posso obter os pontos para sobrepor corretamente nos polígonos no visualizador na projeção OTF básica. Mas não posso executar a contagem do ponto no polígono enquanto eles estão em projeções diferentes. Reprojetei cada arquivo (salvando os pontos como um arquivo de forma) com projeções idênticas no QGIS, mas as geografias não coincidem em nada.

Estou assumindo que meu problema é que as coordenadas lat / lon estão em graus e a projeção NAD83 está em pés. Achei que a reprojeção resolveria esse problema? É claro que os arquivos podem ser facilmente lidos juntos, eles aparecem no lugar certo no visualizador com a projeção OTF. Isso só funciona com um CRS personalizado padrão para OTF que parece estar lidando com o conflito ft / lat-lon. Se eu salvar tudo em uma camada WGS como EPSG4326 ou EPSG3857, nada se alinha.


Abstrato

A importância da otimização não pode ser exagerada. É literalmente confiado ou responsável por muito do que vemos e fazemos diariamente, com muitos sistemas de serviço projetados e gerenciados para funcionar da melhor forma possível. Este artigo de revisão destaca o aumento da aplicação de otimização por meio de sistemas de informação geográfica (GIS) para apoiar a gestão e a tomada de decisões. Uma percepção ampla nos círculos de ciência de gestão e otimização é que o GIS é meramente um sistema de banco de dados que facilita o acesso a dados, mapeamento e análise resumida. No entanto, a otimização está realmente disponível por meio de funcionalidades básicas em muitos pacotes GIS. Esta revisão identifica muitos dos recursos de otimização disponíveis em GIS e é significativa porque há uma tendência constante e crescente de publicação em esforços de aplicativos de relatórios acadêmicos e outros meios de comunicação que dependem de otimização baseada em GIS. O uso do GIS é facilitado pelo acesso fácil de usar do tipo apontar e clicar. Isso sem dúvida explica o aumento do planejamento de gestão envolvendo o GIS, tornando esta revisão importante por muitos motivos. A disponibilidade de ferramentas e técnicas de otimização em GIS se traduz em uso, muitas vezes por indivíduos que provavelmente não entendem os modelos e métodos subjacentes. A crescente importância do software GIS contemporâneo como um meio analítico de gerenciamento e negócios torna este um tópico de revisão oportuno e importante e sugere que o aumento do interesse nos recursos fornecidos no GIS é essencial para garantir que os métodos de otimização sejam aplicados de forma adequada e significativa na prática .


Baixar dados como um arquivo CSV¶

  1. Baixe os dados em formato CSV assim que os dados forem coletados. Depois de enviar os formulários finalizados, navegue até o menu Configurações, selecione “Projetos” e clique no projeto que deseja baixar como arquivo CSV.

  1. Em “Selecionar tipo de exportação”, clique em “CSV (legado)” no menu suspenso. Você também pode alterar o valor e o formato do cabeçalho para valores e cabeçalhos XML.

  1. Selecione os links abaixo de “Nome do arquivo”. Os dados devem ser baixados como um arquivo excel. Abra os dados no excel. Cada pergunta deve ter uma coluna. Com a resposta na célula abaixo.

  1. Este arquivo CSV transforma os dados em um arquivo de texto que pode ser rotulado como pontos xey. Esses pontos podem ser carregados em uma tabela para o QGIS que traçará os dados para você.

Importar arquivos CSV para QGIS¶

  1. Na caixa de diálogo Criar uma camada a partir de um arquivo de texto delimitado, clique em “Procurar” para especificar o caminho do arquivo de texto que você baixou. Adicione um nome de camada. Na seção “Formato de arquivo”, selecione “Delimitadores personalizados” e selecione “Guia”. A seção “Definição de geometria” será preenchida automaticamente se encontrar campos de coordenadas X e Y adequados. No nosso caso, são LONGITUDE e LATITUDE. Você pode alterá-lo se a importação selecionar os campos errados. Clique OK.

  1. O seletor do sistema de referência de coordenadas solicitará que você selecione um sistema de referência de coordenadas. Uma vez que as coordenadas estão em latitudes e longitudes, você deve selecionar um WGS 84.

Baixar formulários de uma conta¶

  1. Clique no projeto na página inicial do KoBoToolbox e selecione “aplicativo Android” em “coletar dados”.

  1. Abra ou instale o aplicativo no dispositivo Android. O aplicativo é denominado KoBo Collect. O logotipo deve ser semelhante ao abaixo.

  1. Vá para a opção Configurações Gerais no canto superior direito do aplicativo aberto. Clique em “Servidor” e digite o URL fornecido online e suas informações de login.

  1. Digite o nome de usuário e a senha da conta kobotoolbox na página exibida. Selecione “KoBo Toolbox” como plataforma.

  1. Uma lista de todos os formulários dos diferentes projetos será exibida. Clique em Alternar tudo (ou selecione aqueles que deseja baixar) e clique em Obter selecionados.


Esta ferramenta identifica clusters espaciais estatisticamente significativos de valores altos (pontos quentes) e valores baixos (pontos frios). Ele cria uma classe de recurso de saída com uma pontuação z, valor p e campo bin de nível de confiança (Gi_Bin) para cada recurso na classe de recurso de entrada.

Os escores z e os valores p são medidas de significância estatística que informam se você deve ou não rejeitar a hipótese nula, característica por característica. Com efeito, eles indicam se o agrupamento espacial observado de valores altos ou baixos é mais pronunciado do que seria de esperar em uma distribuição aleatória desses mesmos valores. Os campos de pontuação z e valor p não refletem nenhum tipo de correção FDR (Taxa de descoberta falsa).

O campo Gi_Bin identifica pontos quentes e frios estatisticamente significativos, independentemente de a correção FDR ser aplicada ou não. Os recursos nos bins +/- 3 refletem a significância estatística com um nível de confiança de 99%. Os recursos nos bins +/- 2 refletem um nível de confiança de 95% nos bins +/- 1 refletem um nível de confiança de 90% e o agrupamento de recursos no compartimento 0 não é estatisticamente significativo. Sem a correção de FDR, a significância estatística é baseada nos campos de valor p e pontuação z. Quando você verifica o parâmetro opcional Aplicar correção de taxa de descoberta falsa (FDR), os valores p críticos que determinam os níveis de confiança são reduzidos para levar em conta vários testes e dependência espacial.

Uma pontuação z alta e um valor p pequeno para um recurso indicam um agrupamento espacial de valores altos. Um escore z negativo baixo e um valor p pequeno indicam um agrupamento espacial de valores baixos. Quanto mais alto (ou mais baixo) o escore z, mais intenso é o agrupamento. Um escore z próximo a zero indica nenhum agrupamento espacial aparente.

O z-score é baseado no cálculo da hipótese nula de randomização. Para obter mais informações sobre pontuações z, consulte O que é uma pontuação z? O que é um valor p?

Quando a classe de recurso de entrada não é projetada (ou seja, quando as coordenadas são fornecidas em graus, minutos e segundos) ou quando o sistema de coordenadas de saída é definido como um sistema de coordenadas geográficas, as distâncias são calculadas usando medidas cordais. As medições de distâncias cordais são usadas porque podem ser calculadas rapidamente e fornecem estimativas muito boas de distâncias geodésicas verdadeiras, pelo menos para pontos dentro de cerca de 30 graus um do outro. As distâncias cordais são baseadas em um esferóide achatado. Dados quaisquer dois pontos na superfície da Terra, a distância cordal entre eles é o comprimento de uma linha, passando pela Terra tridimensional, para conectar esses dois pontos. As distâncias cordais são relatadas em metros.

Cuidado:

Certifique-se de projetar seus dados se sua área de estudo se estender além de 30 graus. As distâncias cordais não são uma boa estimativa das distâncias geodésicas além de 30 graus.

Quando as distâncias cordais são usadas na análise, o parâmetro de Faixa de distância ou Distância limite, se especificado, deve ser dado em metros.

Para recursos de linha e polígono, os centróides do recurso são usados ​​em cálculos de distância. Para multipontos, polilinhas ou polígonos com várias partes, o centróide é calculado usando a média ponderada do centro de todas as partes do recurso. A ponderação para feições de ponto é 1, para feições de linha é comprimento e para feições de polígono é área.

O campo de entrada deve conter uma variedade de valores. A matemática para esta estatística requer alguma variação na variável que está sendo analisada, ela não pode resolver se todos os valores de entrada forem 1, por exemplo. Se você deseja usar esta ferramenta para analisar o padrão espacial de dados de incidentes, considere agregar seus dados de incidentes ou usar a ferramenta Otimizada de Análise de Ponto de Acesso.

Dados de incidentes são pontos que representam eventos (crime, acidentes de trânsito) ou objetos (árvores, lojas) onde seu foco está na presença ou ausência, em vez de algum atributo medido associado a cada ponto.

A ferramenta Optimized Hot Spot Analysis interroga seus dados para selecionar automaticamente as configurações de parâmetros que otimizarão seus resultados de hot spot. Ele agregará dados de incidentes, selecionará uma escala apropriada de análise e ajustará os resultados para múltiplos testes e dependência espacial. As opções de parâmetro que ele seleciona são escritas como mensagens e podem ajudá-lo a refinar suas escolhas de parâmetro ao usar esta ferramenta. Esta ferramenta permite total controle e flexibilidade sobre as configurações dos parâmetros.

Este é o padrão. A faixa de distância ou a distância limite garantirá que cada recurso tenha pelo menos um vizinho. Isso é importante, mas geralmente esse padrão não será a distância mais apropriada a ser usada em sua análise. Estratégias adicionais para selecionar uma escala apropriada (banda de distância) para sua análise são descritas em Selecionando um valor de banda de distância fixa.

Quando zero é inserido para o parâmetro Distance Band ou Threshold Distance, todos os recursos são considerados vizinhos de todos os outros recursos quando este parâmetro é deixado em branco, a distância padrão será aplicada.

Pesos para distâncias menores que 1 tornam-se instáveis ​​quando são invertidos. Consequentemente, a ponderação para características separadas por menos de 1 unidade de distância recebe uma ponderação de 1.

Para as opções de distância inversa (distância inversa, distância inversa ao quadrado e Zona de indiferença), quaisquer dois pontos que sejam coincidentes receberão um peso de um para evitar a divisão zero. Isso garante que os recursos não sejam excluídos da análise.

Opções adicionais para o parâmetro Conceituação de Relações Espaciais, incluindo relações espaço-tempo, estão disponíveis usando a ferramenta Gerar Matriz de Pesos Espaciais. Para aproveitar essas opções adicionais, construa um arquivo de matriz de pesos espaciais antes da análise, selecione Obter pesos espaciais do arquivo para o parâmetro Conceituação de Relações Espaciais e para o parâmetro Arquivo de Matriz de Pesos, especifique o caminho para o arquivo de pesos espaciais que você criou.

Mais informações sobre a análise de cluster de espaço-tempo são fornecidas na documentação da Análise de Espaço-Tempo.

Camadas de mapa podem ser usadas para definir a classe de recurso de entrada. Ao usar uma camada com uma seleção, apenas os recursos selecionados são incluídos na análise.

  • Arquivos de matriz de pesos espaciais formatados em ASCII:
    • Os pesos são usados ​​como estão. Relacionamentos de recurso a recurso ausentes são tratados como zeros.
    • O peso padrão para o potencial próprio é zero, a menos que você especifique um valor de parâmetro do Campo de Autopotencial ou inclua os pesos do potencial próprio explicitamente.
    • Os relacionamentos assimétricos são respeitados, permitindo que um recurso tenha um recurso vizinho que não possui um vizinho em si. Isso significa que o recurso vizinho está incluído nos cálculos da média local para o recurso original, mas o recurso vizinho não está incluído nos cálculos para a média global.
    • Se os pesos forem padronizados por linha, os resultados provavelmente serão incorretos para análises em conjuntos de seleção. Se você precisar executar sua análise em um conjunto de seleção, converta o arquivo de pesos espaciais ASCII em um arquivo .swm lendo os dados ASCII em uma tabela e usando a opção Converter tabela com a ferramenta Gerar matriz de pesos espaciais.
    • Se os pesos forem padronizados por linha, eles serão padronizados novamente para conjuntos de seleção, caso contrário, os pesos serão usados ​​como estão.
    • O peso padrão para o autopotencial é um, a menos que você especifique um valor de parâmetro do campo de autopotencial.

    Executar sua análise com um arquivo de matriz de pesos espaciais formatado em ASCII consome muita memória. Para análises em mais de 5.000 recursos, considere converter seu arquivo de matriz de pesos espaciais formatado em ASCII em um arquivo formatado em SWM. Primeiro coloque seus pesos ASCII em uma tabela formatada (usando o Excel, por exemplo). Em seguida, execute a ferramenta Gerar Matriz de Pesos Espaciais usando a tabela Converter para o parâmetro Conceituação de Relações Espaciais. A saída será um arquivo de matriz de pesos espaciais formatado em SWM.

    A classe de recurso de saída desta ferramenta é adicionada automaticamente ao índice com renderização padrão aplicada ao campo Gi_Bin. A renderização quente a fria é definida por um arquivo de camada em & ltArcGIS Pro & gt Resources ArcToolBox Templates Layers. Você pode reaplicar a renderização padrão, se necessário, reaplicando a simbologia da camada.

    A saída dessa ferramenta inclui um histograma que representa o valor do campo de entrada, que pode ser acessado na classe de recurso de saída no painel de conteúdo.

    O tópico de ajuda Modeling Spatial Relationships fornece informações adicionais sobre os parâmetros desta ferramenta.

    Cuidado:

    Ao usar shapefiles, lembre-se de que eles não podem armazenar valores nulos. Ferramentas ou outros procedimentos que criam shapefiles a partir de entradas não-shapefile podem armazenar ou interpretar valores nulos como zero. Em alguns casos, os nulos são armazenados como valores negativos muito grandes em shapefiles. Isso pode levar a resultados inesperados. Consulte Considerações sobre geoprocessamento para saída do arquivo de forma para obter mais informações.

    Legado:

    A padronização de linha não tem impacto nesta ferramenta: os resultados da Análise de ponto quente (a estatística Getis-Ord Gi *) seriam idênticos com ou sem padronização de linha. O parâmetro é consequentemente desativado, ele permanece como um parâmetro de ferramenta apenas para oferecer suporte à compatibilidade com versões anteriores.

    Ao usar essa ferramenta em scripts Python, o objeto de resultado retornado da execução da ferramenta tem as seguintes saídas:


    Sintaxe

    A classe de recurso, normalmente uma classe de recurso de ponto, para a qual a distância média do vizinho mais próximo será calculada.

    Especifica como as distâncias são calculadas de cada recurso para os recursos vizinhos.

    • EUCLIDEAN_DISTANCE —A distância em linha reta entre dois pontos (em linha reta)
    • MANHATTAN_DISTANCE —A distância entre dois pontos medidos ao longo de eixos em ângulos retos (quarteirão) calculada pela soma da diferença (absoluta) entre as coordenadas x e y
    • NO_REPORT - Nenhum resumo gráfico será criado. Este é o padrão.
    • GENERATE_REPORT —Um resumo gráfico será criado como um arquivo HTML.

    Um valor numérico que representa o tamanho da área de estudo. O valor padrão é a área do retângulo delimitador mínimo que abrangeria todos os recursos (ou todos os recursos selecionados). As unidades devem corresponder às do Sistema de Coordenadas de Saída.


    Parâmetros

    Os recursos de ponto para os quais o clustering baseado em densidade será executado.

    A classe de recurso de saída que receberá os resultados do cluster.

    Especifica o método que será usado para definir clusters.

    • Distância definida (DBSCAN) - Uma distância especificada será usada para separar clusters densos de ruídos mais esparsos. DBSCAN é o mais rápido dos métodos de clustering, mas só é apropriado se houver uma distância muito clara a ser usada que funcione bem para definir todos os clusters que podem estar presentes. Isso resulta em clusters com densidades semelhantes.
    • Autoajuste (HDBSCAN) - Distâncias variáveis ​​serão usadas para separar clusters de densidades variáveis ​​de ruídos mais esparsos. HDBSCAN é o mais orientado a dados dos métodos de agrupamento e requer o mínimo de entrada do usuário.
    • Multi-escala (ÓPTICA) —A distância entre vizinhos e um gráfico de alcançabilidade será usada para separar clusters de densidades variáveis ​​do ruído. OPTICS oferece a maior flexibilidade no ajuste fino dos clusters que são detectados, embora seja computacionalmente intensivo, especialmente com uma grande distância de pesquisa.

    O número mínimo de pontos que serão considerados um cluster. Qualquer cluster com menos pontos do que o número fornecido será considerado ruído.

    A distância máxima que será considerada.

    Para a opção Distância definida do parâmetro Método de Cluster (DBSCAN), o valor do parâmetro Mínimo de Recursos por Cluster deve ser encontrado nesta distância para associação de cluster. Os clusters individuais serão separados por pelo menos esta distância. Se um ponto estiver localizado além desta distância do próximo ponto mais próximo no cluster, ele não será incluído no cluster.

    Para a opção Multi-scale do parâmetro Clustering Method (OPTICS), este parâmetro é opcional e é usado como a distância máxima de pesquisa ao criar o gráfico de alcançabilidade. Para OPTICS, o gráfico de alcançabilidade, combinado com o valor do parâmetro Cluster Sensitivity, determina a associação do cluster. Se nenhuma distância for especificada, a ferramenta pesquisará todas as distâncias, o que aumentará o tempo de processamento.

    Se deixado em branco, a distância padrão usada será a distância central mais alta encontrada no conjunto de dados, excluindo as distâncias centrais no 1 por cento superior (as distâncias centrais mais extremas). Se o valor do parâmetro Time Field for fornecido, uma distância de pesquisa deve ser fornecida e não inclui um valor padrão.

    Um número inteiro entre 0 e 100 que determina a compactação dos clusters. Um número próximo a 100 resultará em um número maior de clusters densos. Um número próximo a 0 resultará em clusters menos compactos. Se deixado em branco, a ferramenta encontrará um valor de sensibilidade usando a divergência de Kullback-Leibler que encontra o valor em que adicionar mais clusters não adiciona informações adicionais.

    O campo que contém o carimbo de hora para cada registro no conjunto de dados. Este campo deve ser do tipo Data. Se fornecida, a ferramenta encontrará grupos de pontos próximos uns dos outros no espaço e no tempo. O valor do parâmetro Search Time Interval deve ser fornecido para determinar se um ponto está próximo o suficiente a tempo de um cluster para ser incluído no cluster.

    O intervalo de tempo que será usado para determinar se os pontos formam um cluster de espaço-tempo. O intervalo de tempo de busca se estende antes e depois do tempo de cada ponto, então, por exemplo, um intervalo de 3 dias em torno de um ponto incluirá todos os pontos começando 3 dias antes e terminando 3 dias depois do tempo do ponto.

    • Para a opção Distância definida do parâmetro Método de clustering (DBSCAN), o valor do parâmetro Minimum Features per Cluster deve ser encontrado dentro da distância de pesquisa e o intervalo de tempo de pesquisa a ser incluído em um cluster.
    • Para a opção Multi-scale do parâmetro Clustering Method (OPTICS), todos os pontos fora do intervalo de tempo de pesquisa serão excluídos ao calcular distâncias centrais, distâncias vizinhas e distâncias de alcançabilidade.

    O intervalo de tempo de procura não controla o intervalo de tempo geral dos clusters de espaço-tempo resultantes. O intervalo de tempo de pontos dentro de um cluster pode ser maior do que o intervalo de tempo de pesquisa, desde que cada ponto tenha vizinhos dentro do cluster que estão dentro do intervalo de tempo de pesquisa.

    Os recursos de ponto para os quais o clustering baseado em densidade será executado.

    A classe de recurso de saída que receberá os resultados do cluster.

    Especifica o método que será usado para definir clusters.

    • DBSCAN - Uma distância especificada será usada para separar clusters densos de ruídos mais esparsos. DBSCAN é o mais rápido dos métodos de clustering, mas só é apropriado se houver uma distância muito clara a ser usada que funcione bem para definir todos os clusters que podem estar presentes. Isso resulta em clusters com densidades semelhantes.
    • HDBSCAN - Distâncias variáveis ​​serão usadas para separar clusters de densidades variáveis ​​de ruídos mais esparsos. HDBSCAN é o mais orientado a dados dos métodos de agrupamento e requer o mínimo de entrada do usuário.
    • ÓPTICA - A distância entre vizinhos e um gráfico de alcançabilidade será usada para separar clusters de densidades variadas do ruído. OPTICS oferece a maior flexibilidade no ajuste fino dos clusters que são detectados, embora seja computacionalmente intensivo, especialmente com uma grande distância de pesquisa.

    O número mínimo de pontos que serão considerados um cluster. Qualquer cluster com menos pontos do que o número fornecido será considerado ruído.

    A distância máxima que será considerada.

    Para a opção DBSCAN do parâmetro cluster_method, o valor do parâmetro min_features_cluster deve ser encontrado nesta distância para associação de cluster. Os clusters individuais serão separados por pelo menos esta distância. Se um ponto estiver localizado além desta distância do próximo ponto mais próximo no cluster, ele não será incluído no cluster.

    Para a opção OPTICS do parâmetro cluster_method, este parâmetro é opcional e é usado como a distância máxima de pesquisa ao criar o gráfico de alcançabilidade. Para OPTICS, o gráfico de alcançabilidade, combinado com o valor do parâmetro cluster_sensitivity, determina a associação do cluster. Se nenhuma distância for especificada, a ferramenta pesquisará todas as distâncias, o que aumentará o tempo de processamento.

    Se deixado em branco, a distância padrão usada será a distância de núcleo mais alta encontrada no conjunto de dados, excluindo as distâncias de núcleo no 1 por cento superior (as distâncias de núcleo mais extremas). Se o valor do parâmetro time_field for fornecido, uma distância de pesquisa deve ser fornecida e não inclui um valor padrão.

    Um número inteiro entre 0 e 100 que determina a compactação dos clusters. Um número próximo a 100 resultará em um número maior de clusters densos. Um número próximo a 0 resultará em clusters menos compactos. Se deixado em branco, a ferramenta encontrará um valor de sensibilidade usando a divergência de Kullback-Leibler que encontra o valor em que adicionar mais clusters não adiciona informações adicionais.

    O campo que contém o carimbo de hora para cada registro no conjunto de dados. Este campo deve ser do tipo Data. Se fornecida, a ferramenta encontrará grupos de pontos próximos uns dos outros no espaço e no tempo. O valor do parâmetro search_time_interval deve ser fornecido para determinar se um ponto está próximo o suficiente a tempo de um cluster para ser incluído no cluster.

    O intervalo de tempo que será usado para determinar se os pontos formam um cluster de espaço-tempo. O intervalo de tempo de busca se estende antes e depois do tempo de cada ponto, então, por exemplo, um intervalo de 3 dias em torno de um ponto incluirá todos os pontos começando 3 dias antes e terminando 3 dias depois do tempo do ponto.

    • Para a opção DBSCAN do parâmetro cluster_method, o valor min_features_cluster especificado deve ser encontrado dentro da distância de pesquisa e o intervalo de tempo de pesquisa para ser incluído em um cluster.
    • Para a opção OPTICS do parâmetro cluster_method, todos os pontos fora do intervalo de tempo de pesquisa serão excluídos ao calcular distâncias centrais, distâncias vizinhas e distâncias de alcançabilidade.

    O intervalo de tempo de procura não controla o intervalo de tempo geral dos clusters de espaço-tempo resultantes. O intervalo de tempo de pontos dentro de um cluster pode ser maior do que o intervalo de tempo de pesquisa, desde que cada ponto tenha vizinhos dentro do cluster que estão dentro do intervalo de tempo de pesquisa.

    Amostra de código

    O seguinte script de janela Python demonstra como usar a função DensityBasedClustering.

    O script Python autônomo a seguir demonstra como usar a função DensityBasedClustering.

    O seguinte script Python autônomo demonstra como usar a função DensityBasedClustering com o tempo.


    1 resposta 1

    Eu suponho que você está tentando sobrepor diferentes sistemas de referência espacial sem dizer ao arcmap quais você usa, então ele não pode reprojetá-los para que se encaixem.

    Quando você diz "latitude" e "longitude", normalmente se refere a um sistema de coordenadas geográficas como o WGS84. Enquanto X e Y geralmente se referem a um sistema de coordenadas projetadas como o NAD. Você definiu NAD para ambas as camadas. Eu acho que você deve definir um sistema de coordenadas geográficas para o seu arquivo CSV, se ele realmente contém coordenadas geográficas.

    ArcMap usa o sistema de referência espacial da primeira camada que é adicionado como o SRS de exibição (você pode mudar isso depois com certeza), é por isso que você viu seu shapefile primeiro e depois de reiniciar e adicionar os pontos viu os pontos primeiro.

    Se cada camada tiver seu SRS definido corretamente, o ArcMap irá reprojetá-los automaticamente para caber no seu SRS de exibição. Se você definir o SRS errado para uma camada, Arcmap não fará nada com certeza, porque não há necessidade de reprojetar uma camada NAD para NAD (embora as coordenadas tenham um domínio de valor completamente diferente e seus pontos sejam desenhados em outro lugar. Verifique isso por clicando com o botão direito na camada CSV e "Zoom to Layer (extend)".

    Para tornar mais complicado: Como o NAD83 e o WGS84 dependem de diferentes datums geodésicos, é necessário transformar. Você encontra um conjunto predefinido de parâmetros de transformação ao clicar com o botão direito em "camadas" no "índice" à esquerda e selecionar "propriedades". Na planilha "sistema de coordenadas" você vê o botão "Transformar" onde você pode selecionar os parâmetros de transformação que devem ser usados ​​para ir de NAD83 para WGS84 e vice-versa. Uma descrição mais detalhada pode ser encontrada neste GIS SE


    O Algoritmo

    O algoritmo que estou apresentando aqui foi descrito há mais de uma década por Adriano Moreira e Maribel Yasmina Santos da Universidade do Minho, Portugal [3]. Do resumo:

    Este artigo descreve um algoritmo para calcular a envoltória de um conjunto de pontos em um plano, que gera convexos em cascos não convexos que representam a área ocupada pelos pontos dados. O algoritmo proposto é baseado em uma abordagem de k-vizinhos mais próximos, onde o valor de k, o único parâmetro do algoritmo, é usado para controlar a “suavidade” da solução final. […]

    Como irei aplicar este algoritmo às informações geográficas, algumas mudanças tiveram que ser feitas, nomeadamente no cálculo de ângulos e distâncias [4]. Mas eles não alteram de forma alguma a essência do algoritmo, que pode ser amplamente descrita pelas seguintes etapas:

    1. Encontre o ponto com o mais baixo y (latitude) coordenar e torná-lo o atual.
    2. Encontre o k-mais próximo aponta para o ponto atual.
    3. De k- pontos mais próximos, selecione aquele que corresponde à maior curva para a direita em relação ao ângulo anterior. Aqui, usaremos o conceito de rumo e começaremos com um ângulo de 270 graus (oeste).
    4. Verifique se, adicionando o novo ponto à sequência de linha crescente, ele não se intercepta. Em caso afirmativo, selecione outro ponto da k- mais próximo ou reinicie com um valor maior de k.
    5. Faça do novo ponto o ponto atual e remova-o da lista.
    6. Após k iterações adicionam o primeiro ponto de volta à lista.
    7. Passe para o número 2.

    O algoritmo parece ser bastante simples, mas há uma série de detalhes que devem ser atendidos, principalmente porque se trata de coordenadas geográficas. Distâncias e ângulos são medidos de maneira diferente.


    Aleatoriedade espacial completa (grão de café)

    Você conhece aquela sensação quando responde à pergunta “o que você está estudando” e recebe um olhar vazio? Os Sistemas de Informação Geográfica costumam ser considerados uma disciplina de nicho, mas descobri que é aplicável a mais situações à medida que avanço em meu programa. No momento, faço parte da economia dos gigs, preparando cafés em um pequeno café de propriedade de uma família no sul da Filadélfia. Certa manhã, meu colega de trabalho Brendan me perguntou o que eu planejava fazer na segunda metade do meu dia (o turno da manhã vai das 6h30 à 1h30). Na época, eu estava na semana 4 das estatísticas avançadas de 6 semanas da velocidade da luz para a análise espacial. Se você ainda não fez este curso, é um turbilhão de matemática e codificação que dominará a largura de banda de seu cérebro. Na quarta semana, o tópico abordado é Regressão Ponderada Geograficamente, ou GWR, que é uma forma de regressão linear com tantos cálculos necessários que, para resolver uma equação manualmente, provavelmente levaria todas as seis semanas da aula apenas para f. Portanto, a maior parte da álgebra é realizada na linguagem de programação R, e você precisa entender os princípios do GWR revisando cada peça da literatura que puder encontrar.

    Um conceito chave na compreensão da regressão geograficamente ponderada é a noção de aleatoriedade espacial completa, ou CSR. CSR pode ser equiparado à hipótese nula como é entendida na regressão. Ele assume que não há padrão nos dados e, portanto, prever valores na média é uma maneira mais precisa de construir um modelo para descrever valores de atributos. Brendan pareceu interessado em minha resposta à pergunta "o que você está estudando" quando descrevi o GIS como uma espécie de amálgama de cartografia, ciência de dados e análise espacial, e segui com uma pergunta sobre que tipo de tópicos a aula estava estudando. Descrever os conceitos de GWR e CSR para um novato pode ser opressor ou simplesmente tedioso se não for aplicável a como você vê o mundo. Essa é uma habilidade que ainda tenho que desenvolver muito e estou ansioso para fazer, e na época pensei em tentar.

    A vida de barista é complicada. Atrás do balcão, colocamos toalhas em todos os cantos e recantos para estarmos prontos para os inevitáveis ​​vazamentos de café, derramamentos de grãos e falhas no equipamento usado para servir sua bebida favorita. Pegando uma toalha e colocando-a ordenadamente sobre o balcão, todas as bordas achatadas, criei um plano para servir de exemplo de teste de RSC. Peguei um punhado de grãos de café e os joguei na toalha, criando um belo contrato de pontos de dados marrons sobre uma superfície branca. O que observamos ao examinar a distribuição dos grãos de café na toalha? If the fact that some beans tend to cluster towards the middle would this be sufficient enough data to say for certain that some attribute embedded within the beans causes them to cluster? Does location of data points play a role in its’ distribution? What’s with these coffee beans?

    In order to do this we would need to test the theory by running the test many times- as is done in a Monte Carlo simulation which makes a distribution of the results of your regression output as many times as the user pleases. Brendan and I just did the test the one time but if we were to waste a morning seeing whether or not the beans clustered or dispersed we would indeed be able to say with a high degree of confidence how our observations related in space.