Подробное описание документа
Ашарина И. В.
Проблемы организации вычислений в многомашинных вычислительных системах с программно-управляемой сбое- и отказоустойчивостью. Часть I / Ашарина И. В. - DOI 10.18698/2308-6033-2021-6-2088 // Инженерный журнал: наука и инновации. - 2021. - № 6. -
В трех частях работы проведен анализ существующих подходов и методов организации сбое- и отказоустойчивых вычислений в распределенных многомашинных вычислительных системах (РМВС), определен и обоснован перечень задач, подлежащих решению. Приведено понятие отказоустойчивости, предложенное А. Авиженисом, объяснено его отличие от современного понятия, а также его некорректность применительно к современным распределенным многомашинным вычислительным системам. Обоснована необходимость корректировки определения отказоустойчивости, утвержденного государственными стандартами, а также необходимость задания трех входных параметров, которые должны учитываться далее применяемыми методами проектирования РМВС: модели допустимых неисправностей, допустимой кратности неисправностей, возможности работы с последовательностями допустимых неисправностей. Перечислены вопросы, на которые нужно знать ответы для разработки действительно надежной, отказоустойчивой системы. Рассмотрены области применения сбое- и отказоустойчивых систем управления сложными сетевыми и распределенными объектами. Системное, функциональное, тестовое диагностирование обозначены как основа построения необслуживаемых сбое- и отказоустойчивых систем. Введено понятие самоуправляемой деградации (завершающейся выведением РМВС в состояние безопасного останова при критической степени деградации) как способа увеличения срока активного существования РМВС. Проанализированы вопросы, связанные с диагностированием кратных неисправностей. Приведены основные различия обеспечения отказоустойчивости в системах, имеющих широковещательные каналы связи и каналы связи «точка-к-точке». Первая часть работы посвящена анализу существующих подходов и методов организации сбое- и отказоустойчивых вычислений в РМВС и определению понятия отказоустойчивости.
