Реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением



Реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением
Реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением

Владельцы патента RU 2748454:

Федеральное государственное унитарное предприятие "Научно-исследовательский институт "Квант" (RU)

Изобретение относится к области вычислительной техники. Техническим результатом является повышение отказоустойчивости, производительности и достоверности получаемых результатов для реконфигурируемой вычислительной системы с многоуровневой подсистемой мониторинга и автоматическим управлением. Раскрыта реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением, содержащая сетевой коммутатор 1 управления, ведущий сервер 2, коммутатор PCI-Express 3 вычислительных узлов, группу из K памятей 41, …, 4K выполняемых задач вычислительных узлов, сетевой коммутатор Ethernet 31 мониторинга, блок 32 контроля и управления питанием вычислительных узлов и группу из K вычислительных узлов 51, …, 5K, каждый из которых содержит группу из N памятей 61, …, 6N выполняемых задач вычислительных модулей, группу из N памятей 71, …, 7N состояния вычислительных модулей, вычислитель общего назначения 8, коммутатор PCI-Express 9, коммутатор PCI-Express 10 вычислительных модулей, блок 27 управления охлаждением и питанием, блок 28 контроля и управления вентиляторами охлаждения, блок 29 мониторинга и управления, блок 30 контроля и управления питанием и группу из N вычислительных модулей 111, …, 11N, каждый из которых содержит коммутатор PCI-Express 12, группу из М вычислительных ПЛИС 161, …, 16M с индивидуальным питанием, группу из М памятей 131, …, 13M стартовых конфигураций вычислительных ПЛИС 161, …, 16M, группу из М совычислителей 191, …, 19M с индивидуальным питанием, системную ПЛИС 25, группу из М буферных памятей 141, …, 14M выполняемых задач, группу из М контроллеров 151, …, 15M прямого доступа, группу из М блоков 171, …, 17M управления вычислительными ПЛИС и совычислителями, группу из М блоков 181, …, 18M управления режимом совычислителей, блок 20 управления режимом коммутатора PCI-Express 12, блок 21 мониторинга и управления вычислительного модуля, блок 22 автоматического управления вычислительного модуля, блок 23 управления охлаждением и питанием вычислительного модуля, память 24 стартовой конфигурации системной ПЛИС 25 и блок 26 конфигурирования вычислительных ПЛИС 161, …, 16M. 1 ил.

 

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к области вычислительной техники, в частности к реконфигурируемым вычислительным системам, предназначенным для решения вычислительно сложных, трудоемких задач и высокоскоростной обработки больших информационных массивов.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

Известна реконфигурируемая вычислительная система (RU №156778 U1, МПК G06F 15/16, заявлена 10.04.2015, опубликовано 20.11.2015 Бюл. №32), содержащая сетевой коммутатор управления, ведущий сервер, сетевой коммутатор мониторинга, группу из K ведомых вычислительных узлов, каждый из которых содержит компьютер, коммутатор PCI-Express и группу из N реконфигурируемых вычислительных устройств, каждое из которых содержит коммутатор PCI-Express, группу из М вычислительных ПЛИС, интерфейсную ПЛИС, блок конфигурирования и мониторинга, блок управления режимом коммутатора PCI-Express и память конфигураций ПЛИС.

Недостатком данной реконфигурируемой вычислительной системы является невысокая надежность работы и высокие энергетические затраты при решении вычислительно сложных и трудоемких задач.

Причиной, препятствующей достижению технического результата, являются большое время опроса при мониторинге и управлении компонентами, связанное с последовательным опросом ведущим сервером по сетевому интерфейсу через коммутатор мониторинга данных от каждого из вычислительных узлов.

Наиболее близким устройством того же назначения, к заявленному изобретению, по совокупности признаков, принятой за прототип, является реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и управления (RU №2699254 С1, МПК G06F 15/16, заявлено 30.10.2018, опубликовано 04.09.2019 Бюл. №25), содержащая сетевой коммутатор управления, ведущий сервер, сетевой коммутатор Ethernet мониторинга, коммутатор PCI-Express вычислительных узлов, блок контроля и управления питанием вычислительных узлов и группу из K вычислительных узлов, каждый из которых содержит вычислитель общего назначения, коммутатор PCI-Express вычислительного узла, коммутатор PCI-Express вычислительных модулей вычислительного узла, блок мониторинга и управления вычислительного узла, блок контроля и управления вентиляторами охлаждения вычислительного узла, блок контроля и управления питанием вычислительных модулей, группу из N памятей состояния вычислительных модулей и группу из N вычислительных модулей, каждый из которых содержит коммутатор PCI-Express вычислительного модуля, группу из М вычислительных ПЛИС с индивидуальным питанием, системную ПЛИС, блок управления режимом коммутатора PCI-Express вычислительного модуля, память стартовой конфигураций системной ПЛИС, группу из М памятей стартовых конфигураций вычислительных ПЛИС, группу из М совычислителей с индивидуальным питанием, группу из М блоков управления режимом совычислителей, блок мониторинга и управления вычислительного модуля и блок конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций.

Недостатком данной реконфигурируемой вычислительной системы является снижение производительности при решении вычислительно сложных и трудоемких задач при экстремальном режиме работы подсистемы охлаждения. При этом в экстремальном режиме охлаждающий воздух имеет максимально доступную скорость потока и минимально возможную температуру.

Причиной, препятствующей достижению технического результата, являются большие потери вычислительной мощности, связанные с аварийным отключением питания при перегреве вычислительных компонент, утратой при этом уже полученных промежуточных результатов и необходимостью повторения данных вычислений, и с задержкой в принятии решения ведущим сервером.

ЗАДАЧА ИЗОБРЕТЕНИЯ

Задача, на решение которой направлено предлагаемое изобретение, заключается в создании реконфигурируемой вычислительной системы с многоуровневой подсистемой мониторинга и автоматическим управлением.

Техническим результатом предлагаемого изобретения является повышение отказоустойчивости, производительности и достоверности получаемых результатов.

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

Указанный технический результат при осуществлении изобретения достигается тем, что в реконфигурируемую вычислительную систему с многоуровневой подсистемой мониторинга и автоматическим управлением, содержащую сетевой коммутатор 1 управления, ведущий сервер 2, коммутатор PCI-Express 3 вычислительных узлов, сетевой коммутатор Ethernet 31 мониторинга, блок 32 контроля и управления питанием вычислительных узлов и группу из K вычислительных узлов 51, …, 5K, каждый из которых содержит вычислитель общего назначения 8, коммутатор PCI-Express 9 вычислительного узла, коммутатор PCI-Express 10 вычислительных модулей вычислительного узла, блок 28 контроля и управления вентиляторами охлаждения вычислительного узла, блок 29 мониторинга и управления вычислительного узла, блок 30 контроля и управления питанием вычислительных модулей, группу из N памятей 71, …, 7N состояния вычислительных модулей и группу из N вычислительных модулей 111, …, 11N, каждый из которых содержит коммутатор PCI-Express 12 вычислительного модуля, группу из М вычислительных ПЛИС 161, …, 16M с индивидуальным питанием, системную ПЛИС 25, блок 20 управления режимом коммутатора PCI-Express 12 вычислительного модуля, память 24 стартовой конфигурации системной ПЛИС 25, группу из М памятей 131, …, 13M стартовых конфигураций вычислительных ПЛИС 161, …, 16M, группу из М совычислителей 191, …, 19M с индивидуальным питанием, группу из М блоков 181, …, 18M управления режимом совычислителей 191, …, 19M, блок 21 мониторинга и управления вычислительного модуля и блок 26 конфигурирования вычислительных ПЛИС 161, …, 16M и их памятей 131, …, 13M стартовых конфигураций,

причем ведущий сервер 2 соединен сетевым интерфейсом Ethernet 55 с сетевым коммутатором Ethernet 31 мониторинга и сетевым интерфейсом Ethernet с сетевым коммутатором Ethernet 1 управления, который соединен по соответствующим сетевым интерфейсам управления Ethernet 331, …, 33K с вычислителями общего назначения 8 вычислительных узлов 51, …, 5K, а сетевой коммутатор Ethernet 31 мониторинга соединен сетевыми интерфейсами 531, …, 53K с блоками 29 мониторинга и управления вычислительных узлов и сетевым интерфейсом 54 с блоком 32 контроля и управления питанием вычислительных узлов, кроме того ведущий сервер 2 соединен высокоскоростным последовательным интерфейсом PCI-Express, с коммутатором PCI-Express 3 вычислительных узлов, который соединен по высокоскоростным последовательным интерфейсам PCI-Express 341, …, 34K с коммутаторами PCI-Express 10 вычислительных модулей соответствующих вычислительных узлов 51, …, 5K,

в которых коммутатор PCI-Express 9 вычислительного узла по высокоскоростным последовательным интерфейсам 35, …, 35N и коммутатор PCI-Express 10 вычислительных модулей вычислительного узла по высокоскоростным последовательным интерфейсам 361, …, 36N PCI-Express соединены с коммутаторами PCI-Express 12 соответствующих вычислительных модулей 111, …, 11N, кроме того коммутатор PCI-Express 9 вычислительного узла также соединен высокоскоростным последовательным интерфейсом PCI-Express с вычислителем 8 общего назначения, который соединен с памятями 71, …, 7N состояния вычислительных модулей, а блок 29 мониторинга и управления вычислительного узла соединен с блоком 30 контроля и управления питанием вычислительных модулей, блоком 28 контроля и управления вентиляторами охлаждения вычислительного узла и шинами 521, …, 52N мониторинга и управления состоянием соединен с блоками 21 мониторинга и управления вычислительных модулей 111, …, 11N,

в каждом из которых системная ПЛИС 25 соединена с блоком 26 конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций и с блоком 21 мониторинга и управления вычислительного модуля, а также с памятью 24 стартовой конфигурации системной ПЛИС соединена шинами конфигурирования 47 и оперативной записи 48, кроме того коммутатор PCI-Express 12 вычислительного модуля соединен с системной ПЛИС 25 по высокоскоростному последовательному интерфейсу PCI-Express 46, с вычислительными ПЛИС 161, …, 16M по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 371, …, 37M, и с блоком 20 управления режимом коммутатора PCI-Express 12 вычислительного модуля,

причем в вычислительных модулях 111, …, 11N вычислительные ПЛИС 161, …, 16M соединены с соответствующими блоками 181, …, 18M управления режимом совычислителей 191, …, 19M, индивидуальными шинами 381, …, 38M записи и индивидуальными шинами 391, …, 39M оперативной реконфигурации с соответствующими памятями 131, …, 13M стартовых конфигураций, шинами 411, …, 41M локального управления индивидуальным питанием и шинами 401, …, 40M взаимодействия с соответствующими совычислителями 191, …, 19M,

кроме того блок 21 мониторинга и управления вычислительного модуля соединен с блоком 20 управления режимом коммутатора PCI-Express 12 вычислительного модуля, шинами 441, …, 44M локального управления индивидуальным питанием с соответствующими вычислительными ПЛИС 16i, …, 16M, с памятью 24 стартовой конфигурации системной ПЛИС и с блоком 26 конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций,

причем блок конфигурирования 26 в вычислительных модулях 111, …, 11N также соединен общей шиной конфигурирования 49 с вычислительными ПЛИС 161, …, 16M и общей шиной 50 записи с памятями 131, …, 13M стартовых конфигураций вычислительных ПЛИС, а блоки 181, …, 18M управления режимом совычислителей соединены шинами 421, …, 42M управления режимом с соответствующими совычислителями 191, …, 19M,

дополнительно введена группа из К памятей 41, …, 4K выполняемых задач вычислительных узлов, в каждый из вычислительных узлов 51, …, 5K дополнительно введены блок 27 управления охлаждением и питанием вычислительного узла и группа из N памятей 61, …, 6N выполняемых задач вычислительных модулей, а в каждый из вычислительных модулей 111, …, 11N дополнительно введены группа из М буферных памятей 141, …, 14M выполняемых задач, группа из М контроллеров 151, …, 15M прямого доступа, группа из М блоков 171, … 17M управления вычислительными ПЛИС и совычислителями, блок 22 автоматического управления вычислительного модуля и блок 23 управления охлаждением и питанием вычислительного модуля,

причем ведущий сервер 2 соединен с группой из К памятей 41, …, 4K выполняемых задач вычислительных узлов, в каждом из вычислительных узлов 51, …, 5K вычислитель 8 общего назначения соединен с группой из N памятей 61, …, 6N выполняемых задач вычислительных модулей, а блок 27 управления охлаждением и питанием вычислительного узла соединен с блоком 30 контроля и управления питанием вычислительных модулей, с блоком 28 контроля и управления вентиляторами охлаждения вычислительного узла и шинами 51, …, 51N управления охлаждением и питанием с блоками 23 управления охлаждением и питанием вычислительных модулей 111, … 11M, в каждом из которых блок 22 автоматического управления вычислительного модуля соединен с блоком 21 мониторинга и управления вычислительного модуля, шинами 451, …, 45M управления вычислительными ПЛИС и совычислителями с соответствующими блоками 171, …, 17M управления вычислительными ПЛИС и совычислителями и шиной 43 управления охлаждением и питанием вычислительного модуля с блоком 23 управления охлаждением и питанием вычислительного модуля, кроме того блоки 171, …, 17M управления вычислительными ПЛИС и совычислителями соединены с соответствующими одноименными блоками 181, …, 18M управления режимом совычислителей и одноименными вычислительными ПЛИС 161, …, 16M, а буферные памяти 141, …, 14M соединены с соответствующими контроллерами прямого доступа 151, …, 15 м и вычислительными ПЛИС 161, …, 16M, которые также соединены с соответствующими контроллерами прямого доступа 151, …, 15M, а блок 23 управления охлаждением и питанием вычислительного модуля также соединен с системной ПЛИС 25.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

На фиг. 1 приведена функциональная схема реконфигурируемой вычислительной системы с многоуровневой подсистемой мониторинга и автоматическим управлением.

На фиг. 1 и в тексте приняты следующие сокращения и обозначения:

РВС - реконфигурируемая вычислительная система;

ВУ - вычислительный узел;

ВМ - вычислительный модуль;

СВ - совычислитель;

ОС - операционная система;

K - количество вычислительных узлов в реконфигурируемой вычислительной системе;

N - количество вычислительных модулей в вычислительном узле;

М - количество вычислительных ПЛИС и совычислителей в вычислительном модуле;

1 - сетевой коммутатор Ethernet управления;

2 - ведущий сервер;

3 - коммутатор PCI-Express вычислительных узлов;

41, …, 4K - группа из К памятей выполняемых задач вычислительных узлов;

51, …, 5N - группа из K вычислительных узлов;

61, …, 6N - группа из N памятей выполняемых задач вычислительных модулей;

71, …, 7N - группа из N памятей состояния вычислительных модулей;

8 - вычислитель общего назначения вычислительного узла;

9 - коммутатор PCI-Express вычислительного узла;

10 - коммутатор PCI-Express вычислительных модулей вычислительного узла;

111, …, 11N - группа из N вычислительных модулей;

12 - коммутатор PCI-Express вычислительного модуля;

131, …, 13M - группа из М памятей стартовых конфигураций вычислительных ПЛИС;

14i, …, 14M - группа из М буферных памятей выполняемых задач;

151, …, 15M - группа из М контроллеров прямого доступа;

161, …, 16M - группа из М вычислительных ПЛИС с индивидуальным питанием;

171, …, 17M - группа из М блоков управления вычислительными ПЛИС и совычислителями;

181, …, 18M - группа из М блоков управления режимом совычислителями;

191, …, 19M - группа из М совычислителей с индивидуальным питанием;

20 - блок управления режимом коммутатора PCI-Express 12 вычислительного модуля;

21 - блок мониторинга и управления вычислительного модуля;

22 - блок автоматического управления вычислительного модуля;

23 - блок управления охлаждением и питанием вычислительного модуля;

24 - память стартовой конфигурации системной ПЛИС вычислительного модуля;

25 - системная ПЛИС вычислительного модуля;

26 - блок конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций;

27 - блок управления охлаждением и питанием вычислительного узла;

28 - блок контроля и управления вентиляторами охлаждения вычислительного узла;

29 - блок мониторинга и управления вычислительного узла;

30 - блок контроля и управления питанием вычислительных модулей;

31 - сетевой коммутатор Ethernet мониторинга;

32 - блок контроля и управления питанием вычислительных узлов;

331, …, 33K - K сетевых интерфейсов управления вычислительных узлов;

341, …, 34K - K высокоскоростных последовательных интерфейсов PCI-Express между коммутатором PCI-Express 3 и коммутаторами PCI-Express 10;

351, …, 35N - N высокоскоростных последовательных интерфейсов PCI-Express между коммутатором PCI-Express 9 и коммутаторами PCI-Express 12 вычислительных модулей;

361, …, 36N - N высокоскоростных последовательных интерфейсов PCI-Express между коммутатором PCI-Express 10 и коммутаторами PCI-Express 12 вычислительных модулей;

371, …, 37M - М высокоскоростных последовательных интерфейсов PCI-Express вычислительных ПЛИС;

381, …, 38M - М индивидуальных шин записи памятей стартовых конфигураций вычислительных ПЛИС;

39i, …, 39M - M индивидуальных шин оперативной реконфигурации вычислительных ПЛИС;

401, …, 40M - М шин взаимодействия между вычислительными ПЛИС и соответствующими совычислителями;

411, …, 41M - М шин локального управления индивидуальным питанием совычислителей;

421, …, 42M - М шин управления режимом совычислителей;

43 - шина управления охлаждением и питанием вычислительного модуля;

441, …, 44M - М шин локального управления индивидуальным питанием вычислительных ПЛИС;

451, …, 45M - М шин управления вычислительными ПЛИС и совычислителями;

46 - высокоскоростной последовательный интерфейс PCI-Express системной ПЛИС 25;

47 - шина конфигурирования системной ПЛИС 25 из памяти 24 стартовой конфигурации;

48 - шина оперативной записи памяти 24 стартовой конфигурации системной ПЛИС 25;

49 - общая шина конфигурирования вычислительных ПЛИС;

50 - общая шина записи памятей стартовых конфигураций вычислительных ПЛИС;

511, …, 51N - N шин управления охлаждением и питанием вычислительных модулей;

521, …, 52N - N шин мониторинга и управления состоянием вычислительных модулей;

531, …, 53K - K сетевых интерфейсов мониторинга вычислительных узлов;

54 - сетевой интерфейс Ethernet управления питанием вычислительных узлов;

55 - сетевой интерфейс Ethernet между коммутатором 31 мониторинга и ведущим сервером 2.

ПОДРОБНОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

Предлагаемая РВС с многоуровневой подсистемой мониторинга и автоматическим управлением предназначена для решения вычислительно сложных, трудоемких задач и высокоскоростной обработки больших информационных массивов и содержит группу из К вычислительных узлов 51, …, 5K, предназначенных для высокоскоростной обработки данных в процессе решения трудоемких вычислительных задач, и объединенных между собой и сервером управления 2 сетевым коммутатором Ethernet 1 управления, обеспечивающим управление вычислителями общего назначения 8 вычислительных узлов, распределение и выполнение пользовательских задач в РВС, сетевым коммутатором Ethernet 31 мониторинга, обеспечивающим контроль состояния и управление работой подсистем питания и охлаждения вычислительных узлов, и коммутатором PCI-Express 3 вычислительных узлов, обеспечивающим оперативное взаимодействие вычислительных узлов между собой при образовании различных архитектур РВС.

Для обеспечения высокой производительности в предлагаемой РВС с многоуровневой подсистемой мониторинга и автоматическим управлением, используются вычислительные ПЛИС и СВ, обладающие высокой удельной вычислительной мощностью и способные работать на высоких частотах, а, следовательно, обладающие и высоким удельным тепловыделением. Поэтому предъявляются высокие требования, как к мощности системы охлаждения, так и к ее динамическим характеристикам для обеспечения их корректной (без ошибок) и безотказной (без поломок, выхода из строя) работы. При этом мощность системы охлаждения - это количество тепла, отводимое в единицу времени, прямо пропорциональна скорости воздушного потока (регулируется скоростью вращения вентиляторов) и обратно пропорциональна температуре потока воздуха. При проектировании требуемая мощность системы охлаждения определяется из расчета среднестатистического тепловыделения РВС при решении задач пользователей, которые могут быть как более энергоемкими, так и менее.

В предлагаемой РВС с многоуровневой подсистемой мониторинга и автоматическим управлением, организована четырехуровневая подсистема мониторинга и управления. На первом уровне осуществляется локальное управление индивидуальными питаниями совычислителей 191, …, 19M, которое предполагает как автоматическое "Аварийное" отключение вычислительными ПЛИС 161, …, 16M индивидуальных питаний от соответствующих СВ 191, …, 19M, так и отключение от них питания в период простоя для сокращения общей мощности потребления и, следовательно, тепловыделения.

На втором уровне также осуществляется локальный мониторинг и управление состоянием отдельных ВМ 111, …, 11N соответствующими системными ПЛИС 25, которые осуществляют сбор данных о текущем состоянии компонент ВМ, задействованных в процессе выполнения вычислений, а именно вычислительных ПЛИС 161, …, 16M и соответствующих СВ 191, …, 19M, управление их питанием, рабочими частотами, а также формирование кадров состояния вычислительных модулей в группе памятей состояния 71, …, 7N.

На третьем уровне осуществляется мониторинг и управление состоянием ВУ 51, …, 5N соответствующими блоками 29 мониторинга и управления вычислительных узлов, которые осуществляют включение питания на вычислительных узлах, а также управление скоростью вращения вентиляторов охлаждения.

Ведущий сервер 2 на четвертом уровне осуществляет централизованный сбор информации о состоянии всех компонент РВС и распределение заданий между ВУ 51, …, 5N с учетом обеспечения их равномерного энергопотребления, а также в перераспределении заданий между ВУ 51, …, 5N в зависимости от их текущего энергопотребления и температурного режима для обеспечения максимально возможного уровня производительности РВС.

В случае обработки РВС потока энергоемких вычислительных задач, выполнение которых приводит к необходимости работы системы охлаждения в экстремальном режиме с максимальной скоростью вращения вентиляторов при минимальной температуре воздушного потока, которых может быть не достаточно для нормального охлаждения вычислительных компонент и может приводить к ошибкам вычислений и необходимости перепроверять результаты на корректность, и, следовательно, будет снижать фактическую производительность РВС.

Снижение температуры вычислительных ПЛИС и СВ осуществляется путем уменьшения рабочих частот выполнения операций, что бывает не всегда доступно пользователям в процессе решения задач, и путем уменьшения входного потока энергоемких заданий. При этом как в первом, так и во втором случае также происходит снижение фактической производительности РВС.

В предлагаемой РВС с многоуровневой подсистемой мониторинга и автоматическим управлением, в отличие от прототипа, используется автоматическое, то есть без программой обработки и непосредственного участия сервера управления 2, управление параметрами работы вычислительной системы: оперативное изменение скорости вращения вентиляторов охлаждения, оперативная остановка обработки данных вычислительными ПЛИС и СВ и оперативное отключение питания вычислительных ПЛИС и СВ в зависимости от их текущей температуры.

В предлагаемой РВС с многоуровневой подсистемой мониторинга и автоматическим управлением использована трехпороговая система автоматического управления в зависимости от температуры компонент:

1. Порог аварии Tcrit - температура вычислительных ПЛИС и СВ близка к температуре выхода из строя данных компонент, характеризуется отключением питания от СВ, вычислительных ПЛИС и вычислительного модуля.

2. Порог предупреждения Tint - температура вычислительных ПЛИС и СВ близка к температуре не достоверной работы (вероятные ошибки вычислений, ошибки при передачи), характеризуется повышением, если это еще возможно, скорости вращения вентиляторов охлаждения, остановкой и повторением вычислений для повышения достоверности результатов.

3. Порог работы Twork - температура работы вычислительных ПЛИС и СВ на задаче пользователя с заданной рабочей частотой в течение одного интервала обработки, характеризуется разрешением инициализации вычислений.

Интервал обработки это время обработки для фиксированного набора входных данных по заданному алгоритму до получения результатов на заданной частоте обработки, которое характеризуется возможностью изменения частоты работы, выключения питания вычислительных ПЛИС и СВ без потери результатов и корректного перехода к следующему интервалу. По интервалу обработки, рабочей частоте, энергоемкости задачи пользователя и мощности системы охлаждения РВС вычисляется величина порога температуры Twork.

Предлагаемая реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением работает следующим образом.

При включении питания первыми включаются сетевой коммутатор Ethernet 1 управления РВС, сетевой коммутатор Ethernet 31 мониторинга РВС и ведущий сервер 2. После загрузки ведущего сервера 2 осуществляется включение питания на вычислительных узлах 51, …, 5K уже по программе от ведущего сервера 2 через сетевой коммутатор Ethernet 31 мониторинга и блок 32 контроля и управления питанием вычислительных узлов. Далее ведущий сервер 2 РВС через сетевой коммутатор Ethernet 31 мониторинга и блоки 29 мониторинга и управления вычислительных узлов осуществляет поочередное включение питания вычислительных модулей 11i, …, 11N.

После этого осуществляется конфигурирование системной ПЛИС 25 из памяти 24 стартовой конфигурации и включение индивидуальных питаний вычислительных ПЛИС 161, …, 16M. Вычислительные ПЛИС 161, …, 16M конфигурируются стартовыми конфигурациями из соответствующих памятей 131, …, 13M стартовых конфигураций, которые используются также и для загрузки рабочих конфигураций в вычислительные ПЛИС 161, …, 16M. Одновременно блок 29 ВУ через блок 21 мониторинга и управления вычислительного модуля выполняет настройку порогов срабатывания температурной защиты системной ПЛИС 25, вычислительных ПЛИС 161, …, 16M и СВ 191, …, 19M.

Далее ведущий сервер 2 осуществляет включение питаний на вычислителях общего назначения 8 вычислительных узлов и после загрузки их операционных систем, которые могут загружаться как по сети Ethernet, так и с автономных дисков, осуществляется распределение адресного пространства между вычислительными ПЛИС 161, …, 16M в адресном пространстве вычислителей 8 общего назначения. Одновременно блок 29 мониторинга вычислительного узла осуществляет проверку напряжений питания системной ПЛИС 25, вычислительных ПЛИС 16i, …, 16M и СВ 191, …, 19M через блок 21 мониторинга и управления вычислительного модуля.

Каждый вычислитель общего назначения 8 вычислительных узлов 51, …, 5K содержит процессор общего назначения, оперативную память, шину ввода-вывода PCI-Express, сетевые интерфейсы и предназначен для подготовки данных и обработки результатов вычислений от вычислительных модулей 111, …, 11N, а также для анализа и передачи на ведущий сервер 2 РВС данных о состоянии компонент из памятей 71, …, 7N состояния вычислительных модулей 111, …, 11N с использованием сетевого коммутатора Ethernet 1. Обмен данными между вычислителем общего назначения 8 и вычислительными модулями 11i, …, 11N осуществляется при помощи коммутатора PCI-Express 9 вычислительного узла, а при помощи коммутатора PCI-Express 10 вычислительных модулей вычислительного узла может осуществляться взаимодействие вычислительных модулей 111, …, 11N внутри вычислительных узлов 51, …, 5N.

После этого ведущий сервер 2 осуществляет размещение заданий в памяти выполняемых задач 41, …, 4K вычислительных узлов, при этом задания содержат не только рабочие конфигурации вычислительных ПЛИС, исполнительные модули для вычислителей общего назначения 8, блоки исходных данных и рабочие частоты вычислительных ПЛИС и СВ, но и характеристики ожидаемой мощности потребления на рабочих частотах и температурный порог работы Twork, привязанный к интервалу обработки данной задачи. Память выполняемых задач 41, …, 4K вычислительных узлов доступна вычислителям общего назначения 8, которые осуществляют считывание из них очередных заданий и запись их в память выполняемых задач 61, …, 6N вычислительных модулей, из которых посредством контроллеров прямого доступа 151, …, 15M автоматически записывается в буферные памяти 141, …, 14M выполняемых задач по мере их освобождения.

Вычислители общего назначения 8 вычислительных узлов помимо распределения задач пользователей между вычислительными ПЛИС 161, …, 16M осуществляют загрузку в них рабочих программ и конфигураций с использованием ресурсов только самих вычислительных ПЛИС 161, …, 16M. Вычислительные ПЛИС 161, …, 16M осуществляют управление индивидуальными питаниями соответствующих СВ 191, …, 19M и динамическое управление их рабочими режимами.

Совычислители 191, …, 19M с индивидуальным питанием предназначены для выполнения основного объема обработки данных в процессе решения вычислительно сложных задач. В качестве СВ 191, …, 19M могут использоваться ПЛИС с большим количеством конфигурируемых логических блоков, заказные СБИС с аппаратной или программной логикой, а также системы на кристалле, которые могут совмещать в своем составе универсальные программируемые вентильные матрицы и процессорные ядра. Совычислители 191, …, 19M, определяют производительность РВС, обладают наиболее высокой удельной вычислительной мощностью, работают на предельно высоких частотах и, как следствие, характеризуются высокими энергопотреблением и тепловыделением.

В зависимости от используемых СВ 191, …, 19M и характера задач, обрабатываемых на них и вычислительных ПЛИС 161, …, 16M, управление рабочими режимами СВ 191, …, 19M включает конфигурирование СВ, управление их рабочими частотами и установку требуемых режимов работы. Вычислительные ПЛИС 161, …, 16M также осуществляют запись новых рабочих конфигураций в памяти 131, …, 13M стартовых конфигураций вычислительных ПЛИС 161, …, 16M, тем самым организуя оперативную самореконфигурацию с использованием только собственных ресурсов.

Наличие у вычислительных ПЛИС 161, …, 16M возможности оперативного самореконфигурирования с использованием собственных памятей 131, …, 13M стартовых конфигураций и индивидуальных шин их записи 391, …, 39M и оперативной реконфигурации 381, …, 38M, а также наличие у вычислительных ПЛИС 16], …, 16M и СВ 191, …, 19M индивидуального питания и возможности индивидуального управления питанием, позволяет проводить распределение вычислительных ресурсов для решения текущих задач пользователей с точностью до одного вычислительного ПЛИС 161, …, 16M с соответствующим СВ 191, …, 19M, что позволяет оптимизировать распределение задач по вычислительным модулям и узлам для повышения средней скорости обмена по каналам PCI Express и выравнивания энергопотребления и нагревания компонент ВМ. В связи с этим, если в потоке задач пользователей все задачи имеют одинаковый приоритет к исполнению, то в первую очередь из потока задач выбираются к исполнению те задачи, которые в комбинации приводят к уменьшению суммарной мощности потребления и увеличению средней скорости обмена по каналам PCI Express, то есть наилучшим образом сочетающимися между собой при реализации.

В предлагаемой РВС с многоуровневой подсистемой мониторинга и автоматическим управлением эффект снижения производительности в экстремальном режиме работы системы охлаждения уменьшается в связи с оперативной (быстрой) адаптацией системы управления к текущему температурному состоянию вычислительных ПЛИС и СВ.

Блок 22 автоматического управления вычислительного модуля предназначен для анализа текущего температурного режима ВМ по информации от блока 21 мониторинга и управления вычислительного модуля и оперативного управления (без участия ведущего сервера 2) блоком 23 управления охлаждением и питанием вычислительного модуля и блоком 27 управления охлаждением и питанием вычислительного узла, предназначенных как для управления изменением текущей скорости вращения вентиляторов охлаждения, так и для управления аварийным отключением питания вычислительных модулей, в случаях, когда температура вычислительных ПЛИС и СВ превышает температурный порог аварии Tcrit.

Кроме того блок 23 осуществляет подготовку информации для формирования кадра текущего состояния системной ПЛИС 25, который передается в памяти 71, …, 7N состояния вычислительных модулей, и предназначен для принятия решения по управлению ведущим сервером 2 и вычислителями общего назначения 8 по аварийному отключению питания от вычислительных ПЛИС и СВ в ВМ и вводу в работу вычислительных ПЛИС и СВ после возврата их температуры к порогу работы Twork.

Кроме того блок 22 автоматического управления вычислительного модуля через блок 17 управления вычислительными ПЛИС и СВ дает разрешение вычислительной ПЛИС на обработку очередных данных, при значении температуры меньше или равной порога работы Twork, и предупреждает, при значении температуры больше или равной порога предупреждения Tint, для остановки обработки очередных данных с целью охлаждения вычислительных ПЛИС и СВ.

При наличии разрешения перехода к обработке очередных данных от блока 17 вычислительные ПЛИС осуществляют автоматическую запись данных в буферную память 141, …, 14M выполняемых задач, используя контроллеры прямого доступа 151, …, 15M, из памятей 61, …, 6N выполняемых задач вычислительного модуля, причем данная операция осуществляется только при условии обработки предыдущих данных при температуре меньше или равной порога предупреждения Tint, иначе после охлаждения вычислительных ПЛИС и СВ их обработка должна повториться.

В предлагаемом изобретении автоматическое управление, в сравнении с прототипом, уменьшает задержку в реакции на изменение состояния вычислительных ПЛИС и СВ, которое в прототипе складывается из времени опроса и времени передачи данных на ведущий сервер 2, что составляет ТРЕАКЦИИ_Прототипа=2*М*TIO+2*N*M*TID, где TIO и TID - времена опроса состояния и передачи данных для одного вычислительного ПЛИС и СВ, М - количество вычислительных ПЛИС и СВ в ВМ, N - количество ВМ в вычислительном узле, при условии, что вычислители 8 общего назначения параллельно и независимо передают данные на ведущий сервер 2. В предлагаемой РВС с многоуровневой подсистемой мониторинга и автоматическим управлением данное время составляет ТРЕАКЦИИ=2*М*TIO, что связано с отсутствием необходимости передавать данные мониторинга на ведущий сервер 2 для принятия актуальных решений, так как управление осуществляется на уровне вычислительных модулей блоком 22 автоматического управления. Кроме того автоматическое управление вычислительными ПЛИС и СВ по трех пороговой схеме значительно сокращает количество интервалов обработки требующих анализа на корректность и практически ликвидирует аварийное отключение питания СВ при перегреве, что способствует повышению производительности РВС, надежности ее работы и достоверности результатов вычислений.

ПРИМЕР ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Предлагаемая реконфигурируемая вычислительная система может быть реализована на следующих элементах:

В качестве ведущего сервера 2 РВС может быть использован сервер фирмы Kraftway на базе платформы Kraftway Express 200: процессор Intel(R) Xeon(R) E2620V4 2.10 GHz 8 cores; оперативная память 64 Gb; жесткий диск 1 Tb.

Вычислители общего назначения 8 ВУ: процессор Intel(R) Xeon(R) E2620V4 2.10 GHz 8 cores; оперативная память 64 Gb; жесткий диск 1 Tb; восемь вычислительных модулей 8, содержащих по четыре вычислительных ПЛИС 161, …, 16M и четыре заказных СБИС в качестве СВ 191, …, 19M.

Вычислительные модули 11: системная ПЛИС 25 и вычислительные ПЛИС 161, …, 16M - на микросхемах фирмы Xilinx типа XC7A100T-FGG484; коммутатор PCI-Express 12 - на микросхеме коммутатора РЕХ8732 фирмы PLX Technology; блок 21 контроля состояния компонент ВМ - на микросхемах МАХ6656 фирмы Maxim Integrated, TMP461AIRUNT фирмы Texas Instruments; блоки 18 управления режимом СВ 191, …, 19M - с использованием микросхем SI570; блок 26 конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций - на микросхеме CPLD ХС2С64А фирмы Xilinx; памяти стартовых конфигураций 13, 24 вычислительных ПЛИС и системной ПЛИС - на микросхемах SPI-памяти М25Р64 фирмы Micron Technology.

Блок 29 мониторинга и управления ВУ - на микросхеме фирмы Xilinx типа XC7Z007S-1CLG400C.

Вышеизложенные сведения позволяют сделать вывод, что предлагаемая реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением решает поставленную задачу и соответствует заявляемому техническому результату - повышение отказоустойчивости, производительности и достоверности получаемых результатов.

Реконфигурируемая вычислительная система с многоуровневой подсистемой мониторинга и автоматическим управлением, содержащая сетевой коммутатор 1 управления, ведущий сервер 2, коммутатор PCI-Express 3 вычислительных узлов, сетевой коммутатор Ethernet 31 мониторинга, блок 32 контроля и управления питанием вычислительных узлов и группу из K вычислительных узлов 51, …, 5K, каждый из которых содержит вычислитель общего назначения 8, коммутатор PCI-Express 9 вычислительного узла, коммутатор PCI-Express 10 вычислительных модулей вычислительного узла, блок 28 контроля и управления вентиляторами охлаждения вычислительного узла, блок 29 мониторинга и управления вычислительного узла, блок 30 контроля и управления питанием вычислительных модулей, группу из N памятей 71, …, 7N состояния вычислительных модулей и группу из N вычислительных модулей 111, …, 11N, каждый из которых содержит коммутатор PCI-Express 12 вычислительного модуля, группу из М вычислительных ПЛИС 161, …, 16M с индивидуальным питанием, системную ПЛИС 25, блок 20 управления режимом коммутатора PCI-Express 12 вычислительного модуля, память 24 стартовой конфигурации системной ПЛИС 25, группу из М памятей 131, …, 13M стартовых конфигураций вычислительных ПЛИС 161, …, 16M, группу из М совычислителей 191, …, 19M с индивидуальным питанием, группу из М блоков 181, …, 18M управления режимом совычислителей 191, …, 19M, блок 21 мониторинга и управления вычислительного модуля и блок 26 конфигурирования вычислительных ПЛИС 161, …, 16M и их памятей 131, …, 13M стартовых конфигураций,

причем ведущий сервер 2 соединен сетевым интерфейсом Ethernet 55 с сетевым коммутатором Ethernet 31 мониторинга и сетевым интерфейсом Ethernet с сетевым коммутатором Ethernet 1 управления, который соединен по соответствующим сетевым интерфейсам управления Ethernet 331, …, 33K с вычислителями общего назначения 8 вычислительных узлов 51, …, 5K, а сетевой коммутатор Ethernet 31 мониторинга соединен сетевыми интерфейсами 531, …, 53K с блоками 29 мониторинга и управления вычислительных узлов и сетевым интерфейсом 54 с блоком 32 контроля и управления питанием вычислительных узлов, кроме того, ведущий сервер 2 соединен высокоскоростным последовательным интерфейсом PCI-Express с коммутатором PCI-Express 3 вычислительных узлов, который соединен по высокоскоростным последовательным интерфейсам PCI-Express 341, …, 34K с коммутаторами PCI-Express 10 вычислительных модулей соответствующих вычислительных узлов 51, …, 5K,

в которых коммутатор PCI-Express 9 вычислительного узла по высокоскоростным последовательным интерфейсам 351, …, 35N и коммутатор PCI-Express 10 вычислительных модулей вычислительного узла по высокоскоростным последовательным интерфейсам 361, …, 36N PCI-Express соединены с коммутаторами PCI-Express 12 соответствующих вычислительных модулей 111, …, 11N, кроме того, коммутатор PCI-Express 9 вычислительного узла также соединен высокоскоростным последовательным интерфейсом PCI-Express с вычислителем 8 общего назначения, который соединен с памятями 71, …, 7N состояния вычислительных модулей, а блок 29 мониторинга и управления вычислительного узла соединен с блоком 30 контроля и управления питанием вычислительных модулей, блоком 28 контроля и управления вентиляторами охлаждения вычислительного узла и шинами 521, …, 52N мониторинга и управления состоянием соединен с блоками 21 мониторинга и управления вычислительных модулей 111, …, 11N,

в каждом из которых системная ПЛИС 25 соединена с блоком 26 конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций и с блоком 21 мониторинга и управления вычислительного модуля, а также с памятью 24 стартовой конфигурации системной ПЛИС соединена шинами конфигурирования 47 и оперативной записи 48, кроме того, коммутатор PCI-Express 12 вычислительного модуля соединен с системной ПЛИС 25 по высокоскоростному последовательному интерфейсу PCI-Express 46, с вычислительными ПЛИС 161, …, 16M по соответствующим высокоскоростным последовательным интерфейсам PCI-Express 371, …, 37M и с блоком 20 управления режимом коммутатора PCI-Express 12 вычислительного модуля,

причем в вычислительных модулях 111, …, 11N вычислительные ПЛИС 161, …, 16M соединены с соответствующими блоками 181, …, 18M управления режимом совычислителей 191, …, 19M, индивидуальными шинами 381, …, 38M записи и индивидуальными шинами 391, …, 39M оперативной реконфигурации с соответствующими памятями 131, …, 13M стартовых конфигураций, шинами 411, …, 41M локального управления индивидуальным питанием и шинами 401, …, 40M взаимодействия с соответствующими совычислителями 191, …, 19M,

кроме того, блок 21 мониторинга и управления вычислительного модуля соединен с блоком 20 управления режимом коммутатора PCI-Express 12 вычислительного модуля, шинами 441, …, 44M локального управления индивидуальным питанием с соответствующими вычислительными ПЛИС 161, …, 16M, с памятью 24 стартовой конфигурации системной ПЛИС и с блоком 26 конфигурирования вычислительных ПЛИС и их памятей стартовых конфигураций,

причем блок конфигурирования 26 в вычислительных модулях 111, …, 11N также соединен общей шиной конфигурирования 49 с вычислительными ПЛИС 161, …, 16M и общей шиной 50 записи с памятями 131, …, 13M стартовых конфигураций вычислительных ПЛИС, а блоки 181, …, 18M управления режимом совычислителей соединены шинами 421, …, 42M управления режимом с соответствующими совычислителями 191, …, 19M,

отличающаяся тем, что в нее дополнительно введена группа из К памятей 41, …, 4K выполняемых задач вычислительных узлов, в каждый из вычислительных узлов 51, …, 5K дополнительно введены блок 27 управления охлаждением и питанием вычислительного узла и группа из N памятей 61, …, 6N выполняемых задач вычислительных модулей, а в каждый из вычислительных модулей 111, …, 11N дополнительно введены группа из М буферных памятей 141, …, 14M выполняемых задач, группа из М контроллеров 151, …, 15M прямого доступа, группа из М блоков 171, …, 17M управления вычислительными ПЛИС и совычислителями, блок 22 автоматического управления вычислительного модуля и блок 23 управления охлаждением и питанием вычислительного модуля,

причем ведущий сервер 2 соединен с группой из К памятей 41, …, 4K выполняемых задач вычислительных узлов, в каждом из вычислительных узлов 51, …, 5K вычислитель 8 общего назначения соединен с группой из N памятей 61, …, 6N выполняемых задач вычислительных модулей, а блок 27 управления охлаждением и питанием вычислительного узла соединен с блоком 30 контроля и управления питанием вычислительных модулей, с блоком 28 контроля и управления вентиляторами охлаждения вычислительного узла и шинами 511, …, 51N управления охлаждением и питанием с блоками 23 управления охлаждением и питанием вычислительных модулей 111, …, 11M, в каждом из которых блок 22 автоматического управления вычислительного модуля соединен с блоком 21 мониторинга и управления вычислительного модуля, шинами 451, …, 45M управления вычислительными ПЛИС и совычислителями с соответствующими блоками 171, …, 17M управления вычислительными ПЛИС и совычислителями и шиной 43 управления охлаждением и питанием вычислительного модуля с блоком 23 управления охлаждением и питанием вычислительного модуля, кроме того, блоки 171, …, 17M управления вычислительными ПЛИС и совычислителями соединены с соответствующими одноименными блоками 181, …, 18M управления режимом совычислителей и одноименными вычислительными ПЛИС 161, …, 16M, а буферные памяти 141, …, 14M соединены с соответствующими контроллерами прямого доступа 151, …, 15M и вычислительными ПЛИС 161, …, 16M, которые также соединены с соответствующими контроллерами прямого доступа 151, …, 15M, а блок 23 управления охлаждением и питанием вычислительного модуля также соединен с системной ПЛИС 25.



 

Похожие патенты:

Изобретение относится к области обработки и распознавания типа манипуляции радиосигналов и может быть использовано в радиотехнических устройствах. Техническим результатом является расширение алфавита распознаваемых типов манипуляции радиосигналов с 4-х до 7.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении производительности процесса шифрования.

Изобретение относится к вычислительной технике. Технический результат заключается в повышении производительности процесса шифрования.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении отказоустойчивости вычислительной системы.

Изобретение относится к области вычислительной техники. Технический результат изобретения заключается в повышении производительности многопотоковых вычислений в вариативных задачах дискретной математики за счет параллельной работы специализированных процессорных элементов по общей программе с независимыми блоками данных.

Изобретение относится к области вычислительной техники. Технический результат изобретения заключается в повышении производительности многопотоковых вычислений в вариативных задачах дискретной математики за счет параллельной работы специализированных процессорных элементов по общей программе с независимыми блоками данных.

Изобретение относится к области обработки и распознавания радиосигналов, в частности к распознаванию типа манипуляции радиосигналов, и может быть использовано в радиотехнических устройствах для распознавания манипуляции радиосигналов.

Изобретение относится к области вычислительной техники. Техническим результатом изобретения является повышение производительности и энергетической эффективности многостадийных многопоточных вычислений в вариативных задачах дискретной математики и цифровой обработки.

Изобретение относится к области электроники. Технический результат заключается в повышении быстродействия и повышении надежности.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении скорости доступа к целевому контроллеру узлов.

Изобретение относится к системам беспроводной связи. Техническим результатом является повышение гибкости и эффективности функционирования систем беспроводной связи.
Наверх