Подробное описание документа
Лобанов А. В.
Восстановление целевой работы в автоматической сбое- и отказоустойчивой многозадачной распределенной информационно-управляющей системе / Лобанов А. В., Ашарина И. В. - DOI 10.18698/2308-6033-2019-7-1902 // Инженерный журнал: наука и инновации. - 2019. - № 7. -
Рассмотрена организация процессов восстановления целевой работы после допустимых сбоев и отказов в автоматической сбое- и отказоустойчивой многозадачной информационно-управляющей распределенной многомашинной системе сетевой структуры, выполняющей набор целевых функций, задаваемых внешними пользователями. Система характеризуется параллельным выполнением множества взаимодействующих целевых задач, исполняемых на отдельных вычислителях, представляющих собой организованные совокупности цифровых вычислительных машин (ЦВМ). Заданный уровень сбое- и отказоустойчивости задачи обеспечивается путем ее репликации — параллельного выполнения копий этой задачи на нескольких ЦВМ, составляющих вычислитель (комплекс), с обменом результатами и выбором из них правильного. Представлены характеристики, принципы построения, особенности рассматриваемых систем и их «философская» сущность с точки зрения сбое- и отказоустойчивости. Определены факторы сложности при проектировании сбое- и отказоустойчивых систем рассматриваемого класса. Принята самая общая модель враждебной неисправности ЦВМ, при которой ее поведение может быть произвольным, неодинаковым по отношению к другим взаимодействующим с ней ЦВМ, и даже подобным злонамеренному. Рассмотрена часть проблемы организации динамической избыточности в разрабатываемой системе, возникающая после того, как в этой системе в некотором комплексе (или некотором множестве F комплексов) со стороны исправных ЦВМ каждого такого комплекса была обнаружена допустимая совокупность неисправностей и каждая такая неисправность была также синхронно и согласованно идентифицирована по месту возникновения и по типу как программный сбой определенной ЦВМ этого комплекса. Эта часть проблемы решается посредством восстановления в идентифицированной в состоянии программного сбоя ЦВМ некоторого комплекса всей необходимой информации, передаваемой в нее из исправных ЦВМ данного комплекса. Определены состав команд, необходимых для такого восстановления, а также действия комплекса в процессе восстановления.
