Холодный резерв электрооборудования. Cервер холодного резервирования

27.03.2024 Вопросы

Заказчики, которые приобретают Software Assurance для серверных продуктов Microsoft , бесплатно получают дополнительную лицензию на использование сервера холодного резервирования (cold backup server) для целей аварийного восстановления в случае отказа. — это сервер, который выключен до момента возникновения аварии. Нельзя использовать этот сервер для работы приложений или сетевых сервисов.

Преимущества для клиента

Снижение рисков и времени простоя в непредвиденных ситуациях.
Экономия на количестве лицензий при резервировании.

Активация и использование преимущества

Активация не требуется.
Установка с тех же носителей, что и серверное ПО.

Условия

Данное преимущество предоставляется заказчикам с действующим Software Assurance , приобретенным для серверных продуктов Microsoft и для лицензий клиентского доступа к серверу. Использование серверного программного обеспечения по регулируется следующими условиями:

Сервер холодного резервирования должен всегда находиться в выключенном состоянии и может включаться только:

для целей ограниченного тестирования и управления обновлениями;
при аварии.

Копии программного обеспечения для аварийного восстановления не могут устанавливаться на сервер в одном кластере с сервером приложений.
В случае аварии ПО может использоваться одновременно и на резервном и на основном сервере только в течение времени, необходимого на восстановление основного сервера. После восстановления основного сервера, сервер холодного резервирования должен быть выключен.
Бесплатные серверные лицензии аварийного восстановления являются временными и истекают по окончании срока действия Software Assurance для соответствующего сервера или клиентских лицензий . В случае прекращения срока действия Software Assurance необходимо удалить любые копии программного обеспечения, установленные по лицензии аварийного восстановления.

Версия, редакция и тип серверного продукта, который используется для целей аварийного восстановления, должны соответствовать основной лицензии на серверный продукт (например, если право Software Assurance закуплено для лицензии Microsoft SQL Server 2000 Standard per processor , бесплатная лицензия на сервер холодного резервирования также будет лицензией Microsoft SQL Server 2000 Standard per processor ).

Лицензии Software Assurance должны быть закуплены как для серверного продукта, так и для всех клиентских лицензий CAL (если применимо). Действие лицензии на сервер холодного резервирования истекает с окончанием срока действия Software Assurance .
Данное преимущество не требует активации на сайте MVLS . Для каждой серверной лицензии с действующим Software Assurance заказчик получает право установить копию этого программного обеспечения на сервер холодного резервирования .
Количество лицензий для аварийного восстановления, которые предоставляются клиенту, соответствует количеству закупленных лицензий Software Assurance .
Заказчики могут установить программное обеспечение с носителей, предоставляемых по программам корпоративного лицензирования .
Использование любого программного обеспечения по лицензии на сервер холодного резервирования регулируется соответствующими правами на использование продукта и условиями предоставления данного преимущества.
Лицензии License & Software Assurance , приобретенные для серверного ПО и соответствующих клиентских лицензий , а также информация, которая содержится в Volume License Product List (EN) , будет являться подтверждением прав заказчика на использование серверного программного обеспечения по лицензии холодного резервирования .

Резервирование является практически единственным и широкое используемым методом кардинального повышения надежности систем автоматизации. Оно позволяет создавать системы аварийной сигнализации, противоаварийной защиты, автоматического пожаротушения, контроля и управления взрывоопасными технологическими блоками [Денисенко ] и другие, относящиеся к уровням безопасности SIL1...SIL3 по стандарту МЭК 61508-5 [МЭК ], а также системы, в которых даже короткий простой ведет к большим финансовым потерям (системы распределения электроэнергии, непрерывные технологические процессы). Резервирование позволяет создавать высоконадежные системы из типовых изделий широкого применения.

Составной частью систем с резервированием является подсистема автоматического контроля работоспособности и диагностики неисправностей.

Большая доля отказов в системах автоматизации приходится на программное обеспечение. Однако этой теме посвящено множество специализированных книг и журнальных статей (см., например [Черкесов ]), поэтому мы ее касаться не будем.

8.1. Основные понятия и определения

Основные определения понятий теории надежности и надежности, связанной с функциональной безопасностью, даны в ГОСТ 27.002-89 [ГОСТ ] и МЭК 61508 [МЭК - МЭК ]. Ниже приводится ряд определений, которые потребуются нам для дальнейшего изложения.

Интенсивностью отказов называется условная плотность вероятности возникновения отказа объекта, определяемая при условии, что до рассматриваемого момента времени отказ не возник. При испытаниях на надежность количество исправных элементов с течением времени уменьшается за счет того, что часть из них становятся неисправными через время в результате отказа. Интенсивность отказа определяется пределом

Длительность безотказной работы элемента (от момента включения до ) является случайной величиной, поэтому ее можно характеризовать вероятностью , где - число исправных элементов в момент времени , - число исправных элементов в момент времени . При конечном числе испытуемых элементов вместо вероятности получают ее точечную статистическую оценку.

Вероятность безотказной работы можно интерпретировать следующим образом: если в системе автоматизации используется 100 модулей ввода-вывода, каждый из которых имеет вероятность безотказной работы =0,99 в течение времени =1 год, то через год после начала эксплуатации в среднем один из модулей станет неработоспособен.

Поделив числитель и знаменатель в (6.1) на , получим

Вероятность отказа , по определению, равна

Интенсивность отказов обычно быстро уменьшается в начале эксплуатации изделия (период приработки), затем длительное время остается постоянной () и после исчерпания срока службы резко возрастает.

Поскольку для средств промышленной автоматизации как правило, указывают значение , выражение (8.3) в этом случае упрощается:

Таким образом, вероятность безотказной работы устройства на интервале времени от до экспоненциально уменьшается с течением времени, если устройство прошло этап приработки и не выработало свой ресурс. Эта вероятность не зависит от того, как долго устройство проработало до начала отсчета времени [Черкесов , Александровская ], т.е. не играет роли, используется бывшее в употреблении устройство, или новое. Это кажущееся парадоксальным утверждение справедливо только для экспоненциального распределения и объясняется тем, что выражение (8.5) получено в предположении, что снижение ресурса изделия с течением времени не происходит, а причины отказов распределены во времени в соответствии с моделью белого шума.

Вероятность отказа за время , по определению, равна , а плотность распределения времени до отказа (частота отказов) равна производной от функции распределения:

Зная плотность распределения (8.7), можно найти среднюю наработку до первого отказа , которая, по определению, является математическим ожиданием случайной величины - длительности безотказной работы , т.е.

Интегрирование в (8.8) выполняется по частям.

Наработка до отказа является основным параметром, который указывается в эксплуатационной документации на электронные средства промышленной автоматизации. Поскольку при из (8.5) получается , то наработку на отказ можно интерпретировать следующим образом: если в системе автоматизации имеется 100 модулей ввода-вывода, то через время после начала эксплуатации останется в среднем 37 работоспособных и 63 отказавших модулей. Иногда наработку на отказ неправильно интерпретируют как время, в течение которого устройство почти наверняка будет работоспособно, и только после истечения этого времени наступит отказ.

При анализе надежности систем, связанных с безопасностью, вместо вероятности отказа используется понятие "вероятность отказа при наличии запроса " (подробнее см. раздел "Функциональная безопасность"), т. е. вероятность отказа при наличии необходимости быть в состоянии готовности. Например, если рассматривается система охраны нефтебазы, то нужно учитывать вероятность отказа системы во время попытки проникновения нарушителей на базу, а не в то время, когда их нет. Отсюда следует вывод, что с точки зрения надежности охраны нужно рассматривать вероятность несрабатывания датчика охранной сигнализации на интервале времени, в течение которого может появиться нарушитель, и не нужно учитывать вероятность ложного срабатывания системы, поскольку она не влияет на выполнение функции охраны. Классическая же теория надежности учитывает оба вида отказов.

В системах, связанных с безопасностью, наработка до отказа рассматривается отдельно для опасных и безопасных отказов. Безопасным считается отказ, не вызывающий опасную ситуацию на объекте. Рассмотрим, например, систему аварийного отключения , в которой исчезновение питания приводит к обесточиванию обмотки реле и поэтому реле отключает нагрузку, переводя ее тем самым в безопасное состояние. В такой системе отказ источника питания обмотки реле является безопасным отказом и поэтому не учитывается при расчете вероятности отказа при наличии запроса. Однако отказ такого же источника питания в системе автоматического пожаротушения, когда необходимо, наоборот, подать напряжение на насосы, рассматривается как опасный отказ. Поэтому средняя вероятность отказа при наличии запроса в двух рассмотренных системах будет различной несмотря на применение блока питания с одним и тем же значением наработки до отказа.

Учет обычной наработки до отказа при проектировании систем безопасности может привести к неоправданно заниженным показателям надежности и невозможности достижения требуемого уровня безопасности.

Фактические значения наработки до отказа систем с резервированием оказываются гораздо ниже расчетных. Это связано с существованием так называемых отказов по общей причине (ООП), которые происходят одновременно у основного элемента и резервного и которые составляют основную долю отказов в системах автоматизации. Предположим, например, что резервированная система находится в помещении, которое оказалось затопленным водой или охваченным пожаром. Отказ основного элемента и резерва при этом наступит одновременно. Другим примером может быть одновременный обрыв основного и резервного кабеля в результате земляных работ. Третьим примером может быть применение двух контроллеров с процессорами из одной и той же партии, которая была изготовлена с применением просроченной паяльной пасты. Следующим примером может быть применение двух датчиков давления одной и той же конструкции, от одного и того же производителя, которые окислились и разгерметизировались одновременно. Электромагнитный импульс молнии или импульс в сети электропитания может явиться причиной отказа основного и резервного оборудования одновременно. Во всех приведенных примерах существует сильная корреляция между случайными величинами, вызывающими отказ основного и резервного элемента.

Для уменьшения коэффициента корреляции (снижения влияния общих причин отказов) нужно по возможности выбирать элементы системы от разных производителей, выполненные на разных физических принципах, с применением различных материалов, различных технологических процессов и с разным программным обеспечением. Основное и резервное оборудование, включая кабели, датчики и исполнительные механизмы желательно разносить территориально, а монтаж основной и резервной системы должны выполнять разные люди или разные монтажные организации, чтобы исключить появление одинаковых ошибок монтажа и одинаково ошибочную интерпретацию руководства по эксплуатации монтируемого изделия.

Общие факторы, влияющие на всю систему, учитываются в моделях отказа как последовательно включенное звено со своей наработкой на отказ.

Резервирование является мощным средством повышения надежности информационных систем. Существуют различные способы включения резервной аппаратуры :

постоянное резервирование;

резервирование замещением.

При резервирование замещением резервные единицы замещают основные только после их отказа. Различают три режима работы при резервирование замещением:

1) нагруженный или горячий резерв ;

2) облегченный или теплый резерв ;

3) ненагруженный или холодный резерв .

Холодный резерв имеет следующие преимущества:

Сохранение постоянных электрических режимов схемы;

Обеспечение максимального использования резервных единиц.

Будем считать, что надежности переключающих устройств равны. Резервные элементы находятся в тех же внешних условиях, что и основной элемент, который является рабочим. Всего в состав группы входит S элементов: 1 рабочий и S-1 – резервные. Интенсивность отказов – λ. Тогда граф переходов системы будет иметь следующий вид

Рис.2. Граф переходов для системы с холодным резервированием

Уравнения Колмогорова для подобных систем в общем виде выглядят таким образом:

Здесь учтено, что для состояний, не имеющих непосредственных переходов, можно считать

Для системы, граф которой изображен на рисунке 1, получаем следующую систему дифференциальных уравнений:

(5)

1. Решим данную систему уравнений, используя преобразования Лапласа. При этом будем использовать следующие соотношения:

Получаем систему алгебраических уравнений относительно комплексной переменной

Последовательно перемножая эти уравнения, находим вероятность отказа системы

Используя соотношение

переходим в область оригиналов

(7)

Вероятность безотказной работы резервированной системы найдется как

С учетом соотношения

(9)

получаем формулу для оценки вероятности безотказной работы резервированной системы

(10)

Как видно из выражения (10), вероятность исправной работы не подчиняется экспоненциальному закону, поэтому нельзя среднее время исправной работы определять из выражения . В этом случае среднее время безотказной работы можно найти как

2. Систему дифференциальных уравнений (5) можно решить численными методами. В среде MathCAD имеется возможность решения обыкновенных дифференциальных уравнений (0ДУ) и систем ОДУ. Для этой цели можно использовать метод Рунге – Кутты с постоянным шагом (процедура rkfixed ). В данной процедуре задается количество шагов N (число узлов сетки), отрезок, на котором ищется решение , вектор (или скаляр) начальных условий y и вектор правых частей системы дифференциальных уравнений f(x,y) . Вектор f(x,y) задан системой уравнений Колмогорова (5), начальные условия определяются из условий задачи (обычно вероятность нахождения системы в начальном состоянии равна единице, т.к. система в начале работы исправна, а остальные вероятности равны нулю). Отрезок соответствует времени, при котором необходимо оценить работоспособность (вероятность исправной работы) системы. Количество шагов N выбирает исследователь, исходя из требований точности решения задачи и наглядности представления результатов.

Таким образом, обращение к заданной процедуре может иметь следующий вид:

Более подробно анализ надежности систем с помощью численного метода рассмотрен в примере, приведенном ниже.

3. Анализ надежности системы с холодным резервированием методами имитационного моделирования .

При холодном резервировании система состоит из одного основного элемента и нескольких резервных. Работу такой системы можно представить как последовательное прохождение транзакта через несколько последовательных каналов обслуживания. Транзакт в этом случае представляет собой указатель работающего в данный момент времени элемента. В начале работы транзакт помещается в первый канал и задерживается там на время исправной работы первого элемента. После выхода из строя основного элемента транзакт поступает в первый резервный элемент и т.д. При возникновении неисправности в последнем резервном элементе транзакт покидает модель системы через блок TERMINATE 1 с меткой BAD.

Начинается работа моделирующей программы вводом в систему одного транзакта в момент времени t 0 , в который необходимо оценить работоспособность системы. Транзакт, войдя в систему, последовательно захватывает и освобождает все каналы системы, отправляя транзакт из одного из каналов (если он находится хотя бы в одном из них) на блок TERMINATE 1 с меткой GOOD.

Повторяя эту процедуру достаточно большое число раз, можно рассчитать вероятность исправной работы системы в момент t 0 . Действительно, очередной транзакт, войдя в систему, отправляет предыдущий на метку GOOD, если тот находился в одном из каналов, т.е. система была в рабочем состоянии. Отношение числа транзактов, прошедших через метку GOOD, к общему числу транзактов дает вероятность исправной работы системы через время t 0 с момента ее запуска. При проходе первого транзакта возникает погрешность за счет того, что он всегда будет идентифицировать состояние системы как неисправное. Однако при большом числе запусков программы с помощью оператора START (например 10000), эта погрешность исчезающее мала.

Захват системы (например системы с именем sys2 ) и ее освобождение реализуется парой операторов

preempt sys2,go,re

return sys2

(операнд re означает, что данный транзакт больше не будет обрабатываться системой).

Второй способ имитационного моделирования систем с холодным резервированием основывается на использовании трех сегментов GPSS – программы.

Первый сегмент имитирует работу системы. Блок GENERATE вводит в начальный момент общее количество транзактов - элементов резервируемой системы (работающий и резервные). Следующий оператор - SPLIT - создает копию этих транзактов, чтобы через какое- то время, достаточное для того, чтобы все введенные оператором GENERATE транзакты заведомо покинули систему, повторить процесс. Первый транзакт, прошедший оператор SPLIT, занимает канал обслуживания, задерживается в нем на время исправной работы и покидает систему через оператор TERMINATE без операнда, т е. не уменьшая счетчик числа завершений. Т.о. первый сегмент программы может иметь следующий вид:

Описание экспоненциальной функции c именем EXP

GENERATE ,3 система содержит 1 рабочий и 2 резервных элемента

L1 SPLIT 1,L2

SEIZE COMP

ADVANCE 20,FN$EXP среднее время работы – 20 единиц времени

RELEASE COMP

TERMINATE

L2 ADVANCE 500 задержка на время, достаточное для ухода трех

TRANSFER ,L1 транзактов из системы

Во втором сегменте производится проверка работоспособности системы через время t 0 после запуска системы в работу. Проверка проводится оператором TEST, который может иметь такой вид:

Test E F$comp,1,L4

Транзакт проходит через блок TEST на следующий оператор, только в том случае, если прибор с именем comp занят. В противном случае транзакт отправляется на метку L4.

Для подсчета числа успешных проверок можно пропустить транзакт, прошедший через оператор TEST, через фиктивный прибор, который используется в качестве счетчика.

Второй сегмент программы может выглядеть таким образом

GENERATE ,1

L3 ADVANCE 60 проверка производится через 60 единиц

TEST E F$comp,1,L4 системного времени после начала работы

SEIZE NUMBER системы

RELEASE NUMBER

L4 ADVANCE 440 временная задержка для синхронизации

TRANSFER , L3 транзактов первого и второго сегментов

Третий транзакт управляет временем моделирования.

Для подсчета доли успешного числа проверок можно поставить метку у оператора TEST. В этом случае вероятность исправной работы найдется из отношения транзактов, прошедших через прибор NUMBER к общему числу транзактов, прошедших через указанную метку.

Похожая информация.

При вариантах «холодного» резервирования резервное оборудование находится в выключенном состоянии и включается только при подключении резерва в работу. До включения резервного оборудования его ресурс не расходуется, и «холодное» резервирование дает самую большую ВБР.

Недостаток холодного резервирования – включение резервной аппаратуры проходит за некоторое время, в течение которого система не управляется или неработоспособна. На этом интервале ввода в строй «холодной» резервной аппаратуры источники питания выходят на режим, аппаратура тестируется, прогревается. В нее загружается необходимая информация.

В случае «горячего» резервирования все резервные элементы ЦВМ включены и готовы сразу после команды включиться в работу. Это может обеспечить меньшее время переключения на резерв. Однако ресурс включенной резервной «горячей» аппаратуры расходуется и достижимая ВБР в этом методе меньше, чем в случае «холодного» резервирования. Время переключения на резерв – важный параметр, и допустимые его значения определяются конкретной прикладной задачей.

Для системы дублированной замещением с холодным резервом ВБР равна:

Данное приближение справедливо для ВБР . Использование дублирования с холодным замещением в нашем примере ЦВМ из 100 БИС с

на каждую ВБР за один год непрерывной работы будет равна

Рдуб.х = 1 – 0,01 = 0,99. Вместо 0.9 для нерезервированной системы.

Таким образом, простое дублирование ЦВМ приводит значение её ВБР в желаемые рамки.

Для системы троированной замещением с холодным резервом ВБР равна:

Ртр.х.= 0,995

Для системы дублированной замещением с горячим резервом ВБР равна:

И для нашего примера ЦВМ будет иметь значение ВБР

Рдб.г.= 0,99

Для системы троированной замещением с горячим резервом ВБР равна:

На графике приведены изменения Р(t) для трех случаев:

1) нерезервированная система

2) система дублированная с холодным резервом

3) система дублированная с горячим резервом

Горячее резервирование троированием с восстанавливающими органами (с мажоритарными элементами).

Этот метод реализует горячее резервирование с восстановлением информации на мажоритарных элементах с голосованием по большинству.

Мажоритарный элемент – логическое устройство, работающее по большинству. Если у него на входе 011,110,101,111 ,то на выходе у него1. Если у него на входе 001,010,100,000, то на выходе у него 0.

Мажоритарный элемент (МЭ) одновременно решает задачи обнаружения отказа - выход одного из элементов отличается от двух других и подключения резервного. В случае последовательно соединения таких мажорированных троек элементов обеспечивается восстановление информации во всех элементах после отказавшего.

Система работоспособна, когда или все каналы работоспособны, или два из трех любых (таких сочетаний три) каналов работоспособны.

Здесь Р1 – ВБР каждого канала троированной системы.

Данная схема хороша не своей высокой ВБР (ВБР у систем с холодным и горячим резервированием замещением выше), а тем, что функции контроля и подключения резерва выполняются одновременно и автоматически на уровне МЭ. Специализированный мажоритарный контроль идет побитно над результатом каждой машинной операции. Здесь сами МЭ не резервированы и это недостаток примененной схемы.

В ЦВМ, резервированных по схеме троирования с мажоритарными органами, мажорированию подвергаются все разряды (поразрядно) передаваемого по шине данных числа, выбираемого из памяти или записываемого в память числа и т.п. По данным нашего примера ВБР ЦВМ с одним мажоритарным органом после выходного регистра имеет значение. Ртр.мж = 0,972

§ 1 Введение

Целью вычислений при наличии обратимых повреждений является построение надежных систем, которые вычисляют правильные результаты даже сталкиваясь с локальными неудачами. Например, если один из модулей отказывает, скажем, из-за ошибки программирования, то другие модули продолжают вычисления, закрывая неудачу первого модуля. Будет изучен ряд новых методов, чтобы осуществить эту исключительно сильную форму модульности.

Отказ системы – отклонение фактического поведения системы от запланированного поведения. Один из разделов проектирования системы, устойчивой к ошибкам, определяет, что конкретно составляет желаемое и не желаемое поведение.

Отказы происходят из-за ошибки в модуле. Причина ошибки – дефект . Дефекты подразделяются на 4 категории:

Дефекты аппаратуры (например, отказы в работе устройств).

Дефекты программного обеспечения (погрешности проектирования).

Дефекты среды (наводнения, землетрясения)

Дефекты управления (погрешности операторов и ремонтного персонала).

Для того, чтобы оценить надежные системы, нужен метод измерения надежности. Можно моделировать срок службы модуля, как последовательность периодов правильной работы (когда модуль делает то, что предполагается делать) и неправильной работы (когда он не делает то, что предполагается делать). Таким образом, надежность системы может быть измерена, как процент времени, когда она выполняет свои функции (работает правильно).

Среднее время от начала правильного выполнения до первого отказа называется средним временем наработки на отказ , Т о. Это – статистическая величина. Время от первого отказа до момента, когда модуль снова заработает правильно, статистически определяется, как среднее время до восстановления , Т в. Надежность может быть теперь количественно определена, как Т о / (Т о + Т в). Величина Т ср = Т о + Т в иногда называется средним временем между отказами . Например, можно сравнить стандартную компьютерную систему IBM (Т ср = 9 дней, Т в = 10 минут) и компьютерную систему Tandem (Т ср = 11 лет).

Общий подход к проектированию надежных систем прост:

Обнаружение ошибок (требует планирования).

Помещение ошибок в «контейнер» (модульность и изоляция дефектов).

Исправление ошибок.

Что представляет собой общая методика исправления ошибок? Дефекты аппаратных средств могут быть преодолены с помощью копирования данных и обработки, маскирующей отказы. Чтобы сделать малым Т в, применяется самодиагностика системы. Подход к преодолению погрешностей операторов и обслуживающего персонала состоит в том, чтобы уменьшить возможность ошибок (т.е. устранить оператора, осуществлять самонастройку и самопроверку, и т.д.). Дефекты окружающей среды могут быть преодолены с помощью эффективной репликации (дополнительные источники энергоснабжения; не устанавливать систему там, где она может быть затоплена; иметь дополнительные линии связи; копировать систему полностью). Для текущего состояния технологии, главная проблема – ошибки аппаратного и программного обеспечения.

§ 2 Обеспечение надежности микропроцессорных информационно-управляющих вычислительных систем (увс).

Под надежностью изделия (элемента, узла, устройства, системы) понимается свойство последнего сохранять свое качество при определенных условиях эксплуатации в течение заданного промежутка времени, т. е. надежность - качество, развернутое во времени. Количественно надежность характеризуется рядом интервальных, интегральных и точечных показателей.

Невосстанавливаемые изделия - изделия, поведение которых существенно лишь до первого отказа, - характеризуются следующими количественными показателями надежности: интенсивностью отказов λ (t ); частотой отказов f (t ); вероятностью безотказной работы P (t ); вероятностью отказа Q (t ); наработкой на отказ Т о.

Восстанавливаемые изделия - изделия, эксплуатация которых допускает их многократный ремонт,- характеризуются следующими количественными показателями надежности: параметром потока отказов ω (t ); параметром потока восстановлений μ (t ); функцией готовности К г (t ); коэффициентом готовности К г; средним временем работы между двумя отказами t ср; средним временем восстановления t в.

Если в процессе функционирования невосстанавливаемого изделия возможен ремонт отдельных его элементов при сохранении работоспособности изделия в целом за счет резерва или если надежность функционирования восстанавливаемого изделия оценивается в интервале времени до первого отказа восстанавливаемого изделия в целом, то такие изделия характеризуются следующими количественными показателями надежности: вероятностью безотказной работы P (t ); вероятностью отказа Q (t ); наработкой на отказ Т о; параметром потока отказов элементов изделия ω (t ); параметром потока восстановлений элементов изделия μ (t ).

Количественные показатели надежности невосстанавливаемых изделий. Интервальные показатели надежности - вероятность безотказной работы P (t ) и вероятность отказа Q (t )-определяются как вероятности событий P (t )= P {τ > t } и Q (t )= P {τ ≤ t } соответственно, где τ - случайный момент времени, в который происходит отказ. При этом P (t ) + Q (t ) = 1, P (0) = l, Q (0) = 0, P (∞)→0, Q (∞)→1.

Точечный (локальный) показатель надежности - интенсивность отказов λ (t )-определяется как вероятность невосстанавливаемого отказа изделия в единицу времени после момента времени при условии, что до этого момента времени отказ не возникал, т.е.

при
и с учетом (1) интенсивность отказов

, (2)

Интегрируя левую и правую части выражения (2) в пределах от 0 до t , нетрудно получить другую форму связи между вероятностью безотказной работы и интенсивностью отказов изделия:

. (3)

Рис. 1. Графическая зависимость интенсивности отказов изделий от времени

Интенсивность отказов λ (t ) -один из наиболее удобных количественных показателей надежности изделий электроники: интегральных схем, радиоэлектронных изделий (транзисторов, диодов, резисторов, конденсаторов и т. п.). Изменение интенсивности отказов λ (t ) во времени большинства изделий электронной техники имеет существенно нелинейный характер (рис. 1), тем не менее на большом по времени участке работы интенсивность отказов изделия обычно мало изменяется и принимается в практических расчетах постоянной.

Следует помнить, что λ (t ), оставаясь постоянной во времени на основном участке работы, существенно зависит от условий эксплуатации изделия (климатических, механических и радиационных воздействий, электрической нагрузки и т. п.), т. е.

где a i - поправочный коэффициент i -гo эксплуатационного фактора; λ 0 - интенсивность отказов изделия при номинальных (лабораторных) условиях эксплуатации.

Частота отказов f (t ) -плотность вероятности времени работы изделия до первого отказа:

. (4)

С вероятностью безотказной работы частота отказов связана соотношением

(5)

Одной из часто используемых на практике интегральных характеристик надежности является наработка на отказ Т о - математическое ожидание случайного момента времени τ , в который происходит отказ, т. е.

. (6)

Учитывая свойство преобразования Лапласа, заметим, что если известно изображение вероятности безотказной работы P (s ), то

. (7)

Для экспоненциального закона вероятности безотказной работы изделия, т. е. при λ (t ) = const и P (t ) = exp (– λt ), наработка на отказ равна величине, обратной интенсивности отказов:

Количественные показатели надежности восстанавливаемых изделий. Точечный (локальный) показатель надежности - параметр потока отказов ω (t ) -удельная вероятность появления хотя бы одного отказа в единицу времени, т. е.

где П o (t )-поток отказов - последовательность отказов, наступающих в случайные моменты времени.

Точечный (локальный) показатель надежности- параметр потока восстановлений μ (t ) -удельная вероятность хотя бы одного восстановления в единицу времени, т. е. где П в (t ) -поток восстановлений - последовательность восстановлений, наступающих в случайные моменты времени.

Среди множества различных отказов (восстановлений) в теории надежности особое место занимает простейший поток отказов (восстановлений), поскольку наиболее важные для практики результаты получены в теории надежности именно для случая простейших потоков. Это объясняется тем, что поведение изделия как системы массового обслуживания при простейших потоках отказов и восстановлений описывается системой дифференциальных уравнений с постоянными коэффициентами, методы решения которой хорошо разработаны.

Для практики расчетов надежностных показателей изделий очень важна связь между параметром потока отказов ω (t ) восстанавливаемого изделия и интенсивностью отказов λ (t ) того же изделия, рассматриваемого как невосстанавливаемое, т. е. функционирующее до первого отказа.

В показано, что

, (8)

где f (t )= λ (t )P { t ) -частота отказов невосстанавливаемого изделия.

Решение дифференциального уравнения (8) в предположении, что поток отказов соответствующего восстанавливаемого изделия простейший, дает ω (t ) = λ (t ).

Если учесть, что на практике в большинстве случаев предполагается, что λ (t )= λ =const, то ω (t ) = λ , т. е. численно параметр потока отказов восстанавливаемого изделия равен интенсивности отказов соответствующего невосстанавливаемого изделия.

В предположении, что поток восстановлений изделия простейший, на практике параметр потока восстановлений изделия находят как μ (t ) = l / Т в =const, где Т в - эмпирическое (опытное) значение среднего времени восстановления (ремонта) изделия.

Точечный (локальный) показатель восстанавливаемого изделия- функция готовности K г (t )-определяется как вероятность того, что в любой момент времени t изделие оказывается в работоспособном состоянии, т. е.

, если
, и
, если
. (9)

где P i (t ). и P j { t ) -вероятности нахождения системы в момент времени t в i -м исправном и j -м отказовом состоянии соответственно; N + 1 - общее число, a k - число исправных состояний изделия.

Предел функции готовности K Г (t ) при t →  называется коэффициентом готовности К Г и служит интегральным показателем надежности восстанавливаемого изделия:

. (10)

Поскольку коэффициент готовности является финальной вероятностью пребывания системы в исправном состоянии, его можно вычислить, используя изображения Лапласа соответствующих вероятностей:

Обычно изображение функции готовности K Г (s ) имеет вид

причем n ≥ m ; поэтому

(12)

Интегральные показатели надежности - среднее время работы между двумя отказами T cp и среднее время восстановления T в , т. е. математическое ожидание времени между соседними отказами и восстановлениями соответственно. Показатели T cp и T в можно определить, если известны финальные вероятности пребывания изделия во всех возможных состояниях и интенсивности переходов из отказовых в предотказовые состояния:

; (13)

, (14)

где
-финальная вероятность нахождения изделия в l -м рабочем состоянии, l = 0 ... L ;

Финальная вероятность нахождения изделия в (L + i ) -м отказовом состоянии, L + i = L + l , ..., L + N ; μ L + i , l - интенсивность перехода из (L +i )-гo отказового состояния в l -е предотказовое состояние.

Иными словами, среднее время между двумя отказами T cp определяется как отношение суммы финальных вероятностей нахождения системы в рабочих состояниях к сумме финальных вероятностей нахождения системы в отказовых состояниях, непосредственно связанных с рабочими состояниями и умноженных на соответствующую эквивалентную интенсивность восстановления. Последняя есть сумма интенсивностей восстановления, с которыми возможен переход из данного нерабочего состояния L + i , где i=l ÷N , во все связанные с ним рабочие состояния. При вычислении среднего времени восстановления T в в числителе отношения берется сумма финальных вероятностей нахождения системы во всех отказовых состояниях, в знаменателе - сумма, аналогичная выражению T cp . Заметим, что

Классификация методов резервирования. При расчете надежности сложного изделия (узла, устройства, системы) полезно составить расчетную надежностную схему.

Если изделие состоит из N элементов и отказ изделия в целом наступает при отказе любого одного из его элементов, то говорят об основном (последовательном) соединении этих элементов, условное изображение расчетной надежностной схемы которого приведено на рис. 2, а. Так как каждый i элемент характеризуется в общем случае интенсивностью отказов λ i (t ) и вероятностью безотказной работы
, то вероятность безотказной работы изделия в целом

. (15)

Для экспоненциального закона вероятности, безотказной работы отдельных элементов, т. е. при λ i = const, вероятность безотказной работы изделия в целом

и наработка на отказ Т о = 1 / λ Σ , где

Если изделие состоит из N элементов и отказ изделия в целом наступает лишь в случае, когда откажут все N входящих в него элементов, то говорят о параллельном соединении этих элементов, расчетная надежностная схема которого приведена на рис. 2, б. В этом случае вероятность безотказной работы

а наработка на отказ Т о и интенсивность отказов изделия вычисляются по (6) и (2) соответственно.

а)

Рис. 2. Условное изображение в надежностных схемах последовательного (а), параллельного (б) и параллельно-последовательного (в) соединений изделий.

В общем случае изделие с точки зрения надежности может быть представлено параллельно - последовательной рабочей надежностной схемой, в которой последовательное соединение элементов отражает поведение элементов, отказ которых приводит к отказу изделия в целом, а параллельное соединение элементов отражает поведение элементов, отказ которых приводит к отказу изделия в целом, если откажут все элементы параллельного соединения. На рис. 2, в приведен пример параллельно-последовательной надежностной схемы.

Если надежностная схема изделия содержит параллельное соединение, т. е. если в изделии повышение надежности обеспечивается использованием функционально избыточных элементов, то говорят, что в изделии имеет место резерв. При этом различают поэлементный, общий и скользящий резерв.

Рис. 3. Классификация способов резервирования изделий

Поэлементный резерв - резерв, при котором функционально избыточные элементы предусматриваются на случай отказа отдельных элементов или групп элементов изделия.

Общий резерв - резерв, при котором функционально избыточные элементы предусматриваются на случай отказа изделия в целом.

Скользящий резерв - резерв, при котором функции элемента неизбыточного изделия передаются резервному элементу только после отказа основного элемента, причем основные элементы резервируются одним или несколькими резервными элементами; каждый из которых может заменить любой отказавший основной элемент.

Общий, поэлементный и скользящий резерв в зависимости от того, в каком режиме (включенном или выключенном) используются резервные элементы до момента начала их функционирования вместо отказавших основных элементов, подразделяют на нагруженный (горячий) и ненагруженный (холодный) резерв.

В случае нагруженного (горячего) резерва резервные элементы находятся в том же рабочем режиме, что и основные.

В случае ненагруженного (холодного) резерва резервные элементы до момента их использования вместо основных элементов практически не несут нагрузок, находятся в выключенном состоянии.

Классификация способов резервирования невосстанавливаемых и восстанавливаемых изделий (узлов, устройств, систем ЭВМ) в зависимости от режима работы и способа включения резервных элементов приведена на рис. 3.

Методы расчета количественных показателей надежности изделий. Расчет показателей надежности невосстанавливаемых изделий с нагруженным общим или поэлементным резервом в предположении внезапных отказов элементов с постоянными во времени интенсивностями отказов элементов проводится с использованием соотношений (6), (15), (16). Например, для расчетной надежности схемы, показанной на рис. 2, в,

Расчетная надежностная схема для невосстанавливаемых изделий с нагруженным скользящим резервом (рис. 4, а) содержит п основных элементов и т резервных. В предположении, что вероятности безотказной работы всех элементов (основных и резервных) одинаковы и равны p (t ), вероятность безотказной работы изделий в целом P (t ) определяется как вероятность события, что за время t в изделии произойдет не более т отказов, т. е.

, (17)

где p (t ) в случае внезапных отказов с постоянной во времени интенсивностью λ равна ехр (-λ t ).

На практике с целью повышения надежности сложных вычислительных устройств широкое распространение получило мажорирование, которое можно рассматривать как частный случай скользящего нагруженного резервирования.

При мажорировании изделие l -кратно резервируется; причем l нечетно. Результат работы всех изделий сравнивается в специальном устройстве - мажорирующем элементе (рис. 4, б)-и за истинное значение принимается такое, которое имеет место на выходе большинства изделий, т. е. на выходе (l -1)/2+1 изделий. Вероятность безотказной работы l -кратно мажорированного изделия в предположении, что мажорирующий элемент абсолютно надежен, можно оценить, используя соотношение (17), если в нем положить

Рис. 4. Расчетные надежностные схемы для случаев невосстанавливаемых изделий с нагруженным скользящим резервом (а ) и мажорирования (б ).

m + n = l , m = (l -1)/2, т.е.

При l =3, 5 и 7 соответственно получим Р 3 (t ) = р 2 (t )(3-2р (t )]; P 5 (t )= р 3 (t ); P 7 (t )= р 4 (t ) .

Показатели надежности невосстанавливаемых изделий при нагруженном общем, поэлементном и скользящем резерве либо восстанавливаемых изделий при ненагруженном или нагруженном общем, поэлементном и скользящем резерве можно вычислить, описывая «старение» таких изделий случайным марковским процессом с дискретными состояниями .

Случайный процесс называется марковским случайным процессом (процессом без последействия), если дальнейшее поведение процесса определяется его состоянием в данный момент времени и не зависит от его предыстории. Случайный марковский процесс называется процессом с дискретными состояниями, если возможные состояния изделия S 1 , S 2 , S 3 , ... можно перечислить (перенумеровать) одно за другим, а сам процесс состоит в том, что время от времени изделие S скачком (мгновенно) переходит из одного состояния в другое под действием простейших потоков отказов и восстановлений отдельных элементов изделия.

При анализе поведения изделия во времени в процессе износа (старения) удобно пользоваться графом состояний, содержащим столько вершин, сколько различных состояний возможно у изделия. Ребра графа состояний отражают возможные переходы из некоторого состояния во все остальные в соответствии с параметрами потоков отказов или восстановлений. Если для каждого состояния изделия, другими словами, для каждой вершины графа вычислить вероятность нахождения изделия именно в этом состоянии в любой произвольный момент времени P i (t ), то, зная эти вероятности, можно оценить интересующие на практике показатели надежности, используя соотношения (2),(6),(9)- (14).

Связь между вероятностями нахождения изделия во всех его возможных состояниях, в свою очередь, выражается системой дифференциальных уравнений Колмогорова . Структура уравнений Колмогорова построена по вполне определенному правилу: в левой части каждого уравнения Колмогорова записывается производная вероятности нахождения изделия в рассматриваемом состоянии вершины графа, а правая часть содержит столько членов, сколько ребер графа состояний связано с данной вершиной графа (если ребро направлено из данной вершины, соответствующий член: имеет знак минус, если в данную вершину - знак плюс). Каждый член равен произведению параметра потока отказа (восстановления), связанного с данным ребром, на вероятность нахождения в той вершине графа, из которой исходит ребро. Система уравнений Колмогорова включает столько уравнений, сколько вершин в графе состояний изделия. Решение системы уравнений Колмогорова при конкретных начальных условиях, определяемых спецификой эксплуатации изделия, дает значения искомых вероятностей P i (t ).

В общем случае применение теории случайных марковских процессов к решению задач оценки показателей надежности восстанавливаемых и невосстанавливаемых изделий включает: 1) составление списка всех возможных состояний изделия; 2) вычисление параметров потоков отказов и восстановлений для каждого состояния; 3) составление графа состояний; 4) запись системы дифференциальных уравнений Колмогорова; 5) решение системы уравнений Колмогорова и определение количественных показателей надежности по соотношениям (2), (6), (9)-(14).

Пути повышения надежности УВС. Надежность УВС растет по мере совершенствования элементной базы. Так, применение микропроцессорных наборов БИС, БИС ЗУ, матричных кристаллов ведет к уменьшению числа элементов, числа межсоединений (паек, сварок) в средствах вычислительной технике. Однако из-за тенденции постоянного увеличения функциональных возможностей средств вычислительной техники число элементов в системах остается достаточно большим.

Если резерв в УВС отсутствует, то практически невозможно достичь приемлемых показателей надежности. Поскольку в инженерной практике считают, что вычислительное средство надежно, если вероятность безотказной работы Р (Δt ) в течение некоторого интервала времени Δt равна 0,997, постольку при λ = 10 -4 ÷10 -7 1/ч и числе элементов в системе n = 10 4 ÷10 5 время безотказной работы в указанном выше смысле составляет лишь единицы часов:

Например, при λ = 10 -7 1/ч и n =10 4 Δt ≤3 ч. Так как существенно уменьшить п и λ нельзя, то и увеличить Δt без применения резерва практически не удается. Опыт эксплуатации электронной техники показывает, что интенсивность отказов элементов при ее хранении примерно на порядок ниже, чем при работе в реальных условиях эксплуатации, т. е.

λ xp ≈ 0,1λ . Это означает, что применение ненагруженного резерва без восстановления может снизить n λΔt не более чем в 10 раз. Такой подход дает возможность создавать средства вычислительной техники, работающие безотказно практически лишь в течение десятков часов, что не решает проблемы резкого повышения надежности УВС.

Теоретически введением избыточности в структуру УВС можно создать сколь угодно надежную вычислительную систему. Но не всегда это практически выполнимо. Для подтверждения этого тезиса сравним количественные показатели надежности: 1) нерезервированной УВС, характеризуемой параметром потока отказов ω = λ и параметром потока восстановлений μ; 2) дублированной УВС (общее резервирование) с восстановлением отказавших ЭВМ; 3) дублированной УВС (поэлементное резервирование) с восстановлением отказавших элементов; 4) УВС, состоящей из п основных и m резервных равнонадежных ЭВМ с параметром потока отказов, каждый из которых равен λ (предполагается, что восстановление отказавших элементов с параметром μ возможно в процессе работы системы).

Для нерезервированной УВС

Р (t ) = ехр (–λ t ); К Г = μ / (μ + λ); T cp = 1 / λ.