На платформе облачного развертывания Railway в ночь на 20 мая произошел многочасовой сбой. Согласно сообщению о статусе от оператора (открывается в новом окне), причиной стала совершенно неожиданно заблокированная учетная запись Google Cloud. В настоящее время сервисы Railway снова работают. Однако вряд ли этот инцидент пошел на пользу деловым отношениям между Google и Railway.
Первое сообщение о статусе сбоя Railway опубликовала около 00:29 по немецкому времени. Предположительно, он начался примерно на 20 минут раньше. Сообщается о «масштабном нарушении работы сервиса» с ошибками входа в систему и проблемами доступа к API и панели управления провайдера.
В 01:37 Railway сообщила, что Google Cloud заблокировала учетную запись компании. Хотя Railway, вероятно, довольно быстро восстановила доступ к аккаунту, из-за некоторых сопутствующих эффектов потребовалось время примерно до 06:00, чтобы все сервисы снова стали доступны. Инцидент был отмечен как полностью устраненный в 09:57 по немецкому времени.
Полный сбой, созданный Google
Те, кто интересуется более подробной информацией о сбое, могут найти ее в посмертном отчете Railway (открывается в новом окне). Согласно ему, сбой также затронул базы данных и части внутренней сетевой инфраструктуры компании. Пользователи сервиса, вероятно, сталкивались с сообщениями об ошибках, такими как «no healthy upstream» и «unconditional drop overload», и не могли войти в систему.
«На пике сбоя все рабочие нагрузки Railway во всех регионах стали недоступны», — говорится в отчете. После восстановления учетной записи Google Cloud, как сообщается, возникли задержки с ранее необработанными развертываниями, которые приходилось устранять поэтапно.
Кроме того, Github ограничил интеграции OAuth и Webhook от Railway, что, вероятно, привело к дополнительным задержкам. «Побочным эффектом стало также сброс записей о согласии с условиями использования, так что пользователям при следующем посещении панели управления пришлось снова давать свое согласие», — далее пишет Railway.
Railway обещает исправиться
Блокировка учетной записи Google Cloud, согласно предоставленной информации, была произведена автоматически. Сообщается, что от этого пострадали и другие аккаунты. «Поскольку это была мера на уровне платформы, перед блокировкой не было уведомления отдельных клиентов», — объясняет Railway. Что именно стало причиной этого, пока неясно, однако для Google Cloud это, безусловно, не первый сбой, который привел к масштабным простоям у клиентов компании.
Railway подчеркивает в своем отчете, что системы компании спроектированы для обеспечения высокой отказоустойчивости. «Сеть Railway представляет собой Mesh-кольцо, состоящее из высокодоступных оптоволоконных соединений между Metal, GCP и AWS», — говорится в отчете об инциденте.
«Однако в этом кольце существовала сильная зависимость от обнаружения рабочих нагрузок, которая была привязана к API плоскости управления сетью, размещенному на машинах, работающих в Google Cloud». После блокировки учетной записи Mesh продолжал работать, «но когда кэш маршрутов истек, таблицы маршрутизации не смогли быть заполнены заново».
Эту зависимость Railway намерена устранить в будущем, «чтобы даже в случае сбоя одного из соединений всегда существовал путь между облаками». Кроме того, компания планирует сделать себя менее зависимой конкретно от Google Cloud. В будущем сервисы Google Cloud в Railway предполагается использовать «только для второстепенных целей или в качестве решения для аварийного переключения».