Upload
jonco
View
59
Download
0
Embed Size (px)
DESCRIPTION
Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН. Григорий Шамов, Максим Астафьев. Отдел информационных технологий Казанского НЦ РАН. mailto:[email protected] , mailto:[email protected]. Проект КазНЦ РАН - PowerPoint PPT Presentation
Citation preview
Григорий Шамов, Максим Астафьев
Организация распределённой вычислительной сети ЦВОИ
Казанского НЦ РАН
Отдел информационных технологий Казанского НЦ РАН. mailto:[email protected] , mailto:[email protected]
Проект КазНЦ РАН«Создание центра высокопроизводительных
вычислений для нужд институтов Казанского научного центра Российской академии наук и высших
учебных заведений г. Казани»
Реализован в 2000 г. при поддержке ФЦП «Интеграция»
Обеспечение удаленного доступа к вычислительным ресурсам ЦВОИ сотрудников институтов КазНЦ и ВУЗов г.Казани
Интеграция фундаментальной науки и образования, изучение и внедрение технологий высокопроизводительных вычислений на многопроцессорных системах в научные исследования и учебный процесс.
Вычислительный кластер ЦВОИ КазНЦ РАН
~ 6,7 GFLOPsLINPAK 1000x1000
83,6SPEC fp 95 DS20E
47,9SPEC fp 95 DS10L
Оценка максимальной производительности вычислительного кластера с процессорамиALPHA 21264
Параметры производительности коммуникационной среды кластера
~140 мксекЛатентность ( на уровне MPI )
~9 Мбайт\сПропускная способность (блоки данных > 1Мбайт)
SENet - Tatarstan
WWW - страничка
Диспетчерзаданий -
PBS
Сервер доступа (SSH)
Управляющий сервер
КоммутаторFastEthernet
Новые кластеры (2001-2002 гг.)
• Кластер КГТУ(КХТИ) • Кластер химфака КГУ
11 AMD Athlon 1.2 GHz 7 AMD Athlon 900 MHz
Channel bonding (объединение каналов) для трёх каналов Fast Ethernet
Медный Gigabit Ethernet
Intel e1000 NICs in PCI-32 slot
Кластеры были выполнены в виде учебных классов, и предназначались, помимо научных расчётов для использования в учебном процессе.
При создании кластеров использовались экономичные варианты коммуникационной среды: Гигабитный Ethernet и объединение нескольких каналов 100Мб Ethernet.
Throughput
0
50
100
150
200
250
300
1 10 100 1000 10000 100000 1000000 10000000
1E+08 1E+09
Block size, bits
Mb
it/s
2*rtl, 2.2.19 tcp
2*tulip, 2.2.19 tcp
4*rtl, 2.2.19 tcp
6*tulip, 2.2.19 tcp
3*t*3rtl, 2.2.19 tcp
4*tulip, 2.2.19 tcp
BPS
0
50
100
150
200
250
300
350
400
1 100 10000 1000000 100000000 10000000000
Block size, bits
Mb
it/s
6*tulip, 2.2.19 tcp
intel e1000
Сравнение результатов прогона NetPIPE для TCP/IP для Gigabit Ethernet и объединения трёх каналов Fast Ethernet. Латентность Gigabit Ethernet равна 93 мс.
Пропускная способность для одного, двух и трёх каналов Fast Ethernet, по данным программы NetPIPE на уровне TCP/IP. Латентности составлют 41, 43 и 44 мс, соответственно.
HO
O H
H
H
Si
O
O
O
O
O
O
Si
O
H
SiH O
Si
H
Si
O
O
O
O
O
H
O
Si
O
O
O
Si
H
O
O
OSiSi
O
H
Si
O
O
Si
O
H
O
O
Si
O
O
O
O
H
Si
O
O
Si
H
OO
H
Si
O
Si
O
SiH
O
O
O
Si
H
O
O
O
O
Si
O
O
H
O
H
H
Si
O
OO
Si
Si
H
O
O
O
O
O
Si
Si HO
H
O
H O
OH
Тестовая молекула для Задачи I, расчёта RHF/STO-3G градиента -- цеолитовый фрагмент Si24O60H24
O
H
N
H
O
H
H
H
Тестовая молекула для Задачи II, расчёта MP2/6-31G* оптимизации геометрии нитробензола
0
2
4
6
8
10
12
0 2 4 6 8 10 12nCPU
spee
dup
Ideal speedup
Задача II, intel
Задача II realtek
Задача I, intel
Задача I, realtek
Ускорение (speedup) Задач I и II для различного числа
процессоров (nCPU) кластера КГТУ, с
использованием Fast Ethernet (realtek) и Gigabit
Ethernet (intel).
Ускорение Задачи II для различного числа процессоров кластеров КГTУ и КГУ с использованием channel bonding трёх Fast Ethernet (realtek) и Gigabit Ethernet (intel).
1
2
3
4
5
6
7
8
9
10
1 3 5 7 9 11 13
nCPU
spee
du
p
Ideal speedup
Задача II, intel
Задача II realtek
Задача II, КГУ, 3 channel bonding
Задача II, КГУ, no bonding
Система управления заданиями локальных кластеров.
Должна обеспечить справедливое и надёжное обслуживание задач пользователей
Предотвратить неконтролируемую конкуренцию процессов пользователей за ресурсы вычислительных узлов
Предоставить пользователям возможно более удобный интерфейс для запуска, мониторинга и управления задачами
PBS Pro 5.2
http://www.pbspro.com
Maui
http://www.supercluster.orgScheduler
Resource manager
Linux cluster
Доступ пользователей
User commands
Статистика загрузки вычислительных кластеров
0
20
40
60
80
100
0
20
40
60
80
100
0
20
40
60
80
100
0
20
40
60
80
100
Alpha – кластер ЦВОИ КазНЦ РАН
Учебный кластер КГТУ
Загрузка, %
Ожидание в очереди, час
Компьютерная химияна кластере ЦВОИ КазНЦ
Анализ электронной структуры молекул
Изучение механизмов химических реакций
Исследования физических и химических свойств веществ
Изучение влияния различных сред
Программное обеспечение, наиболее популярное среди пользователей ЦВОИ:
GAMESS-US, Gaussian98, Priroda
Опыт использования кластеров Казанского НЦ РАН
Большая загрузка кластера затрудняет выполнение параллельных задач на большом количестве CPU. Невозможно обеспечить одновременно полную загрузку кластера и минимальное время ожидания задач в очереди
Пользователи не в состоянии распределить свои задачи по кластерам даже для таких единообразно устроенных кластеров как наши.
Пользователям особенно трудно правильно задать свои запросы для учебных кластеров, которые периодически переводятся в другие режимы работы.
Такая сеть должна обеспечивать увеличение загрузки входящих в неё кластеров и одновременно уменьшать время ожидания в очереди.
Кроме того, она должна предоставить пользователям единый интерфейс ко всем доступным вычислительным ресурсам.
Возможным решением этих проблем является объединение локальных кластеров в распределённую вычислительную сеть.
Распределенная вычислительная сеть г.Казани
Учебный кластер КГУ
Учебный кластер КГТУ
Вычислительный кластер ЦВОИ КазНЦ РАН
Трудности создания РВС Выгоды от РВС
Отсутствие опыта создания и использования РВС
Неотработанность технологий, нестабильность ПО
Необходимо выделения ресурсов локального кластера
Необходимо согласовать политики использования кластеров, политики планирования заданий
Необходимо организовать учёт использования ресурсов
Необходимо вмешаться в работу локальных кластеров на этапе инсталляции/тестирования РВС
Уменьшение простоев
Улучшение оборачиваемости
Единый интерфейс для всех локальных кластеров
Развитие инфраструктуры для метакомпьютинга.
Компоненты РВС
Метапланировщик
Grid environment
Локальные планировщики
Локальные менеджеры ресурсов
Портал доступа
Silver design overview. http://www.supercluster.org
Преимущества Silver
Гибкое выделение ресурсов основанное на т.н. «резервировании»
Совместимость Silver/Maui с широким кругом менеджеров ресурсов: PBS Pro, OpenPBS, SGE, LSF, LoadLever
Минимально вторжение в политики локальных кластеров Ограниченное использование информации от локальных
кластеров Возможность настройки и испытаний РВС в режиме симуляции,
не прерывая нормальной работы локальных кластеров. Возможность как использования Globus в качестве Grid
Environmnt’a, так и создания собственных механизмов для stageing’a, авторизации и запуска задач
Возможность учёта использованных вычислительных ресурсов при помощи базы данных Q-bank
Высокая масштабируемость – Silver разработан так, чтобы управлять тысячами процессоров на десятках кластеров .
Maui 3.2.0
PBS Pro 5.2
Кластер КазНЦ
Сервер доступа
Кластер КГТУ
PBS Pro 5.2
Maui 3.2.0
Silver 1.0.2
Стендовые испытания Silver на кластерах Казанского НЦ РАН
Заключение
Проблемы организации использования высокопроизводительных вычислительных ресурсов имеют общий характер для большинства сайтов.
Возможным решением их является объединение локальных вычислителей в распределённые вычислительные сети.
Что требует как решения технических вопросов, так и сотрудничество заинтересованных в использовании высокопроизводительных вычислений организаций