Upload
salome
View
73
Download
0
Embed Size (px)
DESCRIPTION
Параллельная поисковая машина для сверх-больших баз данных по окружающей среде. Михаил Жижин, ИФЗ РАН [email protected] Eric Kihn, NGDC NOAA [email protected]. Что мы храним и ищем?. Параллельная поисковая машина. Ищет события как определенные условия и / или тренды в архивах данных - PowerPoint PPT Presentation
Citation preview
Параллельная поисковая машина для сверх-больших баз данных по
окружающей среде
Михаил Жижин, ИФЗ РАН[email protected]
Eric Kihn, NGDC [email protected]
Что мы храним и ищем?
Пользователи Проекты Среды
Флот IDEAS(ESG) Океан
Авиация, экология, метеорология
Климат и атмосфера
Связь и навигация, GPS
SPIDR Ионосфера
Спутниковые операторы
Магнитосфера и космос
Наблюдения Земли из космоса
SABR Спутники
Параллельная поисковая машина
• Ищет события как определенные условия и/или тренды в архивах данных
• Реализована на вычислительном кластере с распределенными базами данных и параллельными алгоритмами их обработки
• Подключение сетевых клиентов к поисковой машине не требует особых вычислительных затрат и трафика
Архитектурные шаблоны (patterns)
• Pattern 1: Data Source – Источник данных
• Pattern 2: Discovery – Обнаружение данных
• Pattern 3: Search for Events – Параллельный поиск событий окружающей среды
• Pattern 4: Modeling and Re-analysis – Моделирование и реанализ данных
Pattern 1: Data Source
Data Source1 Appplication
Data Source2 Application
Data Source3 Application
Data File
List of DataSets
getList()
getMetadata()
getData()
XML Element
URL
Список ресурсов (баз данных)
Метаданные о ресурсе
Выборка из базы данных
Основные модели данных
• Временные ряды на сетке - BLOBs• Гранулирование по времени (объем BLOB)
зависит от приложений: – 1 год для климатических данных, – 1 день космической погоды
• Метаданные в формате XML, включая символьные выражения и формулы для виртуальных параметров (напр., скорость ветра)
• Проекция на общую терминологическую базу метаданных и базы знаний
XML Schema – Метаданные IDEAS
Модель данных IDEAS
N-CPU ClusterPressure level parametersSurface level parameters
Tim
e In
terlv
al 2
Tim
e In
terv
al N
...Ti
me
inte
rval
1
CPU4D Grid
1-1
Distributed Environmental Data Model
CPU4D Grid
2-1
CPU4D Grid
N-1
CPU5D Grid
1-2
CPU5D Grid
2-2
CPU5D Grid
N-2
Time interval 1 =[Year 1, Year 2]
Time interval 2 =[Year 2, Year 3]
Time interval N =[Year N-1, Year N]
4D Grid =time X lat X lon X
parameter
5D Grid =time X lat X lon Xlevel X parameter
Pattern 2: Discovery
KnowledgeBase
Application (IDEAS)
Terminology
Data source 1 Data Source 2 Data Source 3
Обнаружение данных в IDEAS
• Поиск и отбор источников данных• ГИС-карты для выбора области (region
of interest, ROI) и узлов на сетке (probes)
• Выбор параметров окружающей среды в общих или предметных терминах
• Виды воздействий окружающей среды в предметных базах знаний
Поиск и отбор источников данных
Узлы и области на сетке
Параметры и терминология
Pattern 3: Search for Events
KnowledgeBase
Application (IDEAS)
Terminology
Data Source 1 Data Source 2 Data Source 3
Поиск событий в IDEAS
• Редактор сценариев нечеткого поиска• Параллельный запрос в базы
(источники) данных• Нечеткий поиск событий• Визуализация результатов поиска• Экспорт данных, внешние сервисы
Временные ряды в узле
5-мерная визуализация в области
Поиск событий в терминах нечеткой логики
«классическое»множество
«нечеткое»множество
Нечеткие термины
Языковые Числовые Очень большой Больше X0 Большой Равно X0 Средний Между X0 и X1 Малый Меньше X0 Очень малый
Нечеткая логика
First operand: fuzzy set A
Second operand: fuzzy set B
Fuzzy NOT
Fuzzy AND
Fuzzy OR
AA 1
BABA ,min
BABA ,max
Нечеткое И: Т-нормаОпределение:
)ityassociativ()),,(()),(,()itycommutativ(,,
)ymontonicit(,,and)boundary(,1)1,(,00,0
,1,01,01,0:
cbaTTcbTaTabTbaTdcTbaTdbcaaaTaTT
xxTxT BABA
Примеры:
)productalgebraic(,
)minimum(),min(,min
abbaTbababaT
ap
Формулы Ягера (Yager)
1,,1min,,
1,11,1min1,,1
1
qbaqbaS
qbaqbaTq
q
qqY
qqY
Пределы:
maximum)(),max(,,lim
sum)bounded()(11,,
minimum)(),min(,,limproduct)bounded()1(01,,
baqbaSbabaS
baqbaTbabaT
Yq
Y
Yq
Y
Определение:
Гладкость норм Ягера
0
0.5
1(a) Two fuzzy sets A and B
A B
0
0.5
1(b) T-norm of A and B
0
0.5
1(c) T-conorm (S-norm) of A and B
a) Нечеткие функции принадлежностимножеств A и B;
b) T-нормы (И) для q = 1, 2, 5, и 50;
c) T-конормы (ИЛИ)для q = 1, 2, 5, и 50
Случай двух переменных
Многомерный поиск в IDEAS
• Многомерные функции принадлежности в IDEAS задаются как конъюнкции (И) одномерных функций принадлежности для каждого параметра и узла
• Например, «сильный ветер» И «средняя температура» И «влажность 60%»
• В качестве оператора И используется Т-норма Ягера при q=5
January Wind Speed Record
0
5
10
15
20
1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97
Date
Win
d Sp
eed
(kts
)
January Temperature Record
05
1015202530
1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97
Date
Tem
pera
ture
(deg
C)
January Relative Humidity Record
0
20
40
60
80
100
1/1/97 1/6/97 1/11/97 1/16/97 1/21/97 1/26/97 1/31/97
Date
Rel
. Hum
idity
(%)
“High” Wind
“Average”Temperature
“About” 60%Humidity
Форма нечеткого запроса
Редактор сценария IDEAS
Результат нечеткого поиска
Pattern 4: Modeling and Re-analysis
Data File Computational Cluster
Model Code
Data Source
ModelOutput
New Temporary orPermanent
Data Source
Интерактивное (синхронное) моделирование
• Заполнить форму на счет модели
• Собрать данные из сети
• Рассчитать модель• Визуализировать
результаты• Вернуть ссылки на
графику и данные
Ocean API
Model run request
ESG Web/JSP server
SPIDR API
ESG visualization serverION - Java IDL wrapper
ESG API
NOAA Modeling cluster
Model runvisualiaztion and
output
Асинхронное моделирование - реанализ
• Собрать данные с сетевых сервисов• Рассчитать модель на вычислительном
кластере• Загрузить результаты расчетов в
реляционную базу данных• Создать (обновить) метаданные• Создать (обновить) ресурс данных
Климатические модели ESG• NCEP/NCAR CDAS/Reanalysis Project
Output Parameters: 1) pressure level data on 10 isentropic surfaces: horizontal winds, omega (dP/dt), geopotential height, specific/relative humidity, absolute vorticity and divergence on standard pressure levels every 6 hours; 2) total cloud cover, convective and total precipitation; 3) surface wind stress, latent/sensible heat flux, soil temperature/moisture, gravity wave drag, SST, 2m temperature, 2m humidity, 10m winds, runoff, mean sea level pressure, surface pressure, and snow. The data is available every 6 hours. The above list is not complete. URL: http://wesley.wwb.noaa.gov/reanalysis.html
• COAMPS - Coupled Ocean/Atmosphere Mesoscale Prediction System Output Parameters: Similar to NCEP/NCAR modelURL: http://www.nrlmry.navy.mil/projects/coamps/
• ACMES - Advanced Climate Modeling and Environmental Simulations Output Parameters: Similar to NCEP/NCAR modelURL: http://www.meso.com/meso/research/acmes/acmes.html
• MM5 – 5th generation mesoscale model of atmospheric circulationOutput Parameters: Similar to NCEP/NCAR modelURL: http://www.mmm.ucar.edu/mm5/mm5-home.html
Космические модели ESG• IRI - International Reference Ionosphere Model
Output Parameters: Electron density, electron temperature, ion temperature, ion composition (O+, H+, He+, NO+, O+2) URL: http://nssdc.gsfc.nasa.gov/space/model/models/iri.html
• AMIE - Assimilative Mapping of Ionospheric Electrodynamics ModelOutput Parameters: Ionospheric electric potential distributionURL: http://www.hao.ucar.edu/public/research/tiso/amie/AMIE_head.html
• MSM - Magnetospheric Specification ModelOutput Parameters: Electron and ion fluxes in the inner and middle magnetosphere; fluxes of electrons precipitating into the ionosphere; ionospheric electric fields; magnetic-field mapping informationURL: http://rigel.rice.edu/~freeman/dmb/index.html
• PIM - Parameterized Ionospheric Specification ModelOutput Parameters: Electron density profiles (EDPs) between 90 and 25000 km altitude, corresponding critical frequencies and heights for the ionospheric E and F2 regions, and Total Electron Content (TEC)URL: http://users.primushost.com/~cpibos/
• IONSCINT - Ionospheric Scintillation Simulation AlgorithmOutput Parameters: A simulated prediction of scintillation intensity throughout a specified theater for communication with a specified satellite.
Что такое SABR?SABR создавался как единый веб-интерфейс к архивам
спутниковых данных Национального центра геофизических данных (NGDC) NOAA в Болдере, штат Колорадо, США.
SABR объединяет данные со спутников DMSP (DoD), GOES (NOAA), и Terra (NASA) с многодисциплинарными базами данных по окружающей среде (NCEP/NCAR reanalysis project и SPIDR NGDC) и ГИС (MapServer, University of Minnesota) для интерактивной визуализации, поиска и заказа изображений со спутников, телеметрии и производных продуктов, которые хранятся на в реляционных базах данных, на дисковых массивах и на роботизированной библиотеке магнитных лент в NGDC.
Прогноз объемов спутниковых данных НОАА
0
2,000
4,000
6,000
8,000
10,000
12,000
14,000
16,000
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
NEXRADGOESPOES (includes DMSP)METOPNPP/NPOESSEOS
Основные продукты SABR• DMSP орбиты в видимом и инфракрасном диапазонах с июня
1992;• DMSP «мозаики» (весь мир, Африка, Нигерия, Центральный
регион России, Сибирь) с сентября 2001;• DMSP базы данных стабильных ночных огней (изображения с
координатной привязкой и слой ГИС) на 1993 и 2001;• DMSP архив сканированных фотоизображений с 1979;• DMSP SSJ4 телеметрия с 2001;• GOES телеметрия: протоны, электроны, рентгеновское
излучение и магнитное поле с 1986;• GOES SXI изображения Солнца в рентгеновском диапазоне• Terra MODIS гранулы уровня 1 за июнь 2001 и октябрь 2003;
Основные функции SABR• Поиск изображений и продуктов в заданных координатах и
интервале времени для определенного типа орбит, сенсоров и разрешения;
• Отображение на карте наличия данных в заданном интервале времени для определенного типа орбит, сенсоров и разрешения;
• Анимационный просмотр временных рядов изображений (“VCR controls”);
• Орбитальная навигация по изображениям (“joystick”);• Совмещение интерактивных ГИС-карт и изображений со
спутников;• Оpen GIS Сonsortium (OGC) Web Map Server (WMS)
интерфейс к совмещенным картам и изображениям со спутников.
Основные функции SABR (продолжение)
• Интерактивные графики многоканальной телеметрии со спутников;
• Параллельный поиск событий в базах данных по окружающей среде и отображение спутниковых снимков (“fuzzy search engine”);
• Заказ данных с помощью “покупательской корзины” с просмотром метаданных и изображений для каждого элемента заказа;
• Асинхронная обработка заказов с подтверждением выполнения по электронной почте
Сценарий работы в SABR• Выбрать продукт или сервис на домашней странице
SABR; • Определить критерии поиска на форме, используя ГИС-
карты и информацию о покрытия данными; • Просмотреть последовательность найденных
изображений и отобрать интересующие в «пользовательскую корзину»;
• Просмотреть/отредактировать содержимое «пользовательской корзины» и отправить заказ на асинхронную обработку;
• Получить подтверждение о выполнение заказа со ссылками на подготовленные данные и загрузить данные на свой компьютер.
Системные компоненты SABR - загрузчик
1 Gbit/s Ethernet bus
Orbitaldatabase
Preview imageryraid array
Robotic tapelibrary (Tivoli)
Input datastream buffer
Ingest data processor 1
Ingest data processor 2
Real-time datastream from satellite
operator
Системные компоненты SABR - браузер
Поиск орбит DMSP
Орбитальный навигатор DMSP
Поиск орбит Terra MODIS
Орбитальный навигатор Terra/MODIS
Поиск «мозаик» DMSP
«Пользовательская корзина» (мета)данных
Как SABR связан с другими системами NOAA?
• SPIDR – Bpace Physics Interactive Data Resource
• IDEAS - Investigation of Distributed Environmental Archives System
• CLASS - Comprehensive Large Array-data Stewardship System
Спутниковые данные в SPIDR
Что мы храним и ищем?
Пользователи Проекты Среды
Флот IDEAS(ESG) Океан
Авиация, экология, метеорология
Климат и атмосфера
Связь и навигация, GPS
SPIDR Ионосфера
Спутниковые операторы
Магнитосфера и космос
Наблюдения Земли из космоса
SABR Спутники