Глоссарий о пространственных данных

Здесь мы собрали все ключевые термины, которые вам необходимо знать, чтобы стать специалистом по пространственным данным.

а

Агломеративная кластеризация

Тип иерархической кластеризации, в которой кластеры строятся «снизу вверх». Этот алгоритм начинает построение кластеров, где каждый объект находится в своем кластере, затем кластеры рекурсивно объединяются (агломерируются), используя 'стратегию связывания', такую как минимизация суммы квадратов расстояний внутри кластера.

Алгоритм Фишера-Дженкса

Метод кластеризации, разработанный для определения лучшего расположения значений в различных классах.

Анализ вариограмм

Состоит в вычислении экспериментальной вариограммы из данных и подгонке модели вариограммы к эмпирической вариограмме для вывода параметров, характеризующих пространственную зависимость.

Анализ данных

Процесс очистки и преобразования данных для извлечения полезной информации для принятия решений.

Аппроксимация и проекция однородного многообразия (UMAP)

Метод уменьшения размерности и кластеризации.

Аппроксимация стохастического частичного дифференциального уравнения (SPDE)

Состоит в представлении GP (непрерывного пространственного процесса) с использованием GMRF (дискретно индексированного пространственного процесса).

б

Байесовские методы

Используют теорему Байеса для расчета и обновления вероятностей после получения новых данных.

в

Вариограмма

Определяет вариабельность между точками данных только в функции расстояния.

Внутренняя пространственная стационарность

Говорят, что стохастический процесс является внутренне стационарным, если его функция дисперсии не меняется при смещении в пространстве.

г

Гауссов процесс (GP)

Стохастический процесс, имеющий гауссовы распределения в пределах. Он параметризуется средней функцией и ковариационной функцией, которые применяются к векторам ввода и возвращают вектор средних значений и ковариационную матрицу, которые предоставляют среднее значение и ковариацию выходных значений, соответствующих этим точкам ввода в функциях, взятых из процесса.

Гауссово марковское случайное поле (GMRF)

Стохастический процесс, который удовлетворяет марковскому свойству, что параметры i-й области независимы от всех других параметров, учитывая множество его соседей.

Географическая информационная система (GIS)

Система для сбора и анализа пространственных данных.

Географически взвешенная регрессия (GWR)

Модель с пространственно меняющимся коэффициентом, используемая как исследовательская техника, предназначенная для указания мест, где происходит нестационарность.

Геокод

Создание геометрических точек в ваших данных.

Геокодирование

Процесс преобразования адресов, например, улиц, в координаты широты и долготы, которые вы можете использовать для размещения маркера на карте.

Геопространственные данные

Данные с географическим компонентом.

Графическая модель

Совокупность случайных величин, связанных с узлами графа.

ж

Жупитеровская тетрадь

Открытое веб-приложение, которое позволяет специалистам по данным создавать и делиться документами, содержащими живой код, уравнения, визуализации и текст.

и

Иерархическая байесовская модель

Статистическая модель, записанная в иерархической (многоуровневой) форме, которая оценивает параметры апостериорного распределения с использованием байесовского метода.

Изохрона

Изолиния времени путешествия, то есть кривая равного времени путешествия.

Интегрированное вложенное приближение Лапласа (INLA)

Сочетает аналитические приближения и эффективные схемы численного интегрирования для достижения высокоточных детерминированных приближений апостериорного распределения.

к

Картография

Наука и техника создания карт для передачи пространственной информации.

Кластеризация

Статистическая техника группировки данных таким образом, что данные, принадлежащие одной и той же группе (кластеру), более вероятно похожи друг на друга, чем на данные из других кластеров.

Кригинг

Метод пространственной интерполяции, используемый для получения прогнозов в немерных местах на основе GP. Ковариационная функция обычно получается из анализа вариограммы.

м

Метод Монте-Карло с цепями Маркова (MCMC)

Класс методов моделирования, используемых для приближения апостериорного распределения путем случайной выборки в вероятностном пространстве.

Модель

Модель - это формулировка проблемы.

о

Открытые данные

Данные, свободно доступные для использования всем без ограничений.

п

Перекрестная проверка

Техника валидации модели для оценки того, как результаты статистической модели обобщатся на новые данные. Она включает разделение выборки данных на взаимодополняющие подмножества, выполнение анализа на одном подмножестве и валидацию анализа на другом подмножестве.

Полная пространственная случайность (ППС)

Если данные распределены случайно и равномерно по исследуемой области, говорят, что они демонстрируют ППС.

Пространственная кластеризация

Методы кластеризации, учитывающие пространственные связи, присущие пространственным данным.

Пространственная кластеризация на основе плотности приложений с шумом (DBSCAN)

Метод кластеризации, который объединяет данные, которые находятся близко друг к другу, на основе метрики расстояния и минимального количества точек данных. С помощью подходящей метрики может быть применен к координатам точек относительно данных для выполнения пространственной кластеризации.

Пространственная кросс-валидация

Техника кросс-валидации, которая использует пространственную информацию для разделения данных на подмножества.

Пространственная стационарность

Стохастический процесс считается стационарным, если его совместное вероятностное распределение не меняется при смещении в пространстве.

Пространственно-временное моделирование

Состоит в анализе пространственно-временных данных: данные определяются процессом, индексированным пространством и временем.

Пространственное моделирование

Состоит в анализе пространственных данных (т.е. данных, которые проявляют пространственную зависимость), чтобы сделать выводы о параметрах модели, предсказать в неотобранных местах и для пространственного сглаживания.

Пространственное смешивание

Пространственное смешивание происходит, когда добавление пространственно-коррелированного ошибочного члена изменяет оценки коэффициентов фиксированного эффекта, особенно когда фиксированные эффекты сильно коррелируют с пространственно структурированным случайным эффектом.

Пространственный индекс

Структура данных, позволяющая доступ к пространственному объекту.

р

Расположение интеллект

Методология для преобразования ваших геоданных в бизнес-результаты. Геоданными могут быть все: от адресов и координат широты/долготы до существующих точек, линий и полигонов.

Регионализация

Тип кластеризации, который обеспечивает непрерывность границ географий. Это означает, что меньшие географии могут быть объединены в более крупные, смежные регионы, которые создаются для оптимизации качеств, таких как одинаковые населения, однородные меры (например, аналогичные социодемографические характеристики) и компактность среди прочего.

с

Сетевые данные

Данные, связанные с набором упорядоченных точек, соединенных прямыми линиями. Примеры включают данные из сетей мобильности, интернета и мобильных телефонных сетей. Типичные приложения включают анализ пространственных сетей и оптимизацию маршрутов.

Слабая пространственная стационарность

Стохастический процесс считается слабо стационарным, если его функция ковариации не меняется при смещении в пространстве.

Среднеквадратическая ошибка (RMSE)

RMSE - это стандартное отклонение ошибок прогнозирования.

Статистика Морана

Мера глобальной и локальной пространственной автокорреляции для ареальных данных.

т

Теорема Байеса

Предлагает способ расчета вероятности гипотезы на основе ее априорной вероятности, вероятностей наблюдения различных данных при данной гипотезе и наблюдаемых данных самой по себе.

Территориальные данные

Данные, связанные с фиксированным набором местоположений с четко определенными границами. Границы могут быть нерегулярными, как в случае административных единиц (например, районы, регионы, округа), или могут быть определены регулярной сеткой, как в случае растровых данных. Типичные приложения включают вывод модели, прогнозирование в неотобранных местах и пространственное сглаживание.

Точечно-референсные данные

Данные, связанные с пространственным индексом, который изменяется непрерывно в пространстве. Примеры включают данные от GPS-трекинга, стационарных устройств, спутников высокого разрешения. Эти данные часто полезны для вывода модели и прогнозирования в неотобранных местах.

Точечные паттерны

Данные, представляющие собой события, в которых сами места являются случайными. В этом контексте эти данные полезны при оценке возможного кластеризации или ингибирования между наблюдениями.

Точки интереса (POI)

Места, которые могут быть полезны или интересны, например, рестораны, памятники, парки, школы...

у

Условные авторегрессионные модели (УАР) / Симулятивные авторегрессионные модели (САР)

Условные (УАР) и симулятивные (САР) случайные пространственные эффекты для построения иерархических байесовских моделей.

ц

Цепи Маркова

Стохастическая модель, описывающая последовательность возможных состояний, в которых вероятность каждого состояния зависит только от предыдущего состояния.

g

GeoJSON

Открытый формат, предназначенный для кодирования пространственных данных.

k

K-средних

Непространственный метод кластеризации, который стремится разделить данные на фиксированное количество кластеров, при этом каждая точка данных принадлежит кластеру с ближайшим средним значением.

m

Matplotlib

Об comprehensive библиотека для создания статических, анимированных и интерактивных визуализаций на Python.

p

Pandas

Быстрый и открытый инструмент для анализа и манипуляций с данными, построенный на основе языка программирования Python.

PostgreSQL

PostgreSQL - это универсальная система управления объектно-реляционными базами данных.

Python

Язык программирования.

r

R

Язык программирования.

s

Skater

Метод регионализации, который работает путем построения контингентности на основе минимального остовного дерева, обеспечивая однородность внутри деревьев, минимизируя затраты, которые являются обратными значениями сходства объединенных регионов.