Машинное обучение в Oracle Cloud: как «примирить» Dev и Ops

Анна Суслова

 

 Одной из тем состоявшейся недавно в Москве конференции Oracle Code стало использование машинного обучения в PaaS-сервисах Oracle Management Cloud (OMC).

В организациях разработчики ПО, и те, кто его эксплуатирует, нередко находятся в конфронтации, перекладывая ответственность друг на друга в случае проблем. Система с механизмами машинного обучения позволяет устранить этот конфликт, становится своего рода третейским судьей. Она дает визуальную аналитику, предлагает механизмы перехода по иерархии ИТ-объектов и поиска. О том, как это работает, рассказал Дэвид Лерой, директор по разработке Oracle Management Cloud.

Как обучить облако?

Облачные сервисы OMC разработаны для эффективного ИТ-менеджмента и рассчитаны на использование гетерогенных систем и приложений. Их ключевые возможности – мониторинг приложений и компонентов инфраструктуры, помощь в планировании мощностей и ресурсов, сбор информации из журналов (лог-файлов), поиск, агрегирование, автоматизированное выявление аномалий, анализ метрик производительности и событий, быстрое устранение проблем за счет новых подходов к обработке больших объемов машинно-генерируемых данных.

Это единый источник операционных данных, обеспечивающий их автоматический сбор, хранение и машинную обработку в реальном времени. Такие данные используются в различных сервисах OMC. Например, сервис Application Performance Monitoring позволяет осуществлять диагностику на различных уровнях — от конечного пользователя до журналов инфраструктуры, реализует единый интерфейс для разработчиков и специалистов по эксплуатации (Dev и Ops).

Алгоритмы машинного анализа и обучения, реализованные в Oracle Management Cloud, позволяют следить за информационными объектами (базами данных, приложениями и пр.) на всех уровнях стека и строить профили нормального (без сбоев) функционирования системы. В случае каких-либо отклонений (аномалий), например, при увеличении времени отклика, «зависании» приложения или замедлении транзакций, система фиксирует данную ситуацию и отправляет уведомление об этом, и это позволяет выстраивать превентивные политики, предупреждающие подобные аномалии.

Насколько сложно обучить систему, много ли для этого потребуется времени, усилий экспертов? По существу, никакого обучения не нужно – OMC обучается самостоятельно. Система сама строит профили нормального функционирования объекта, а для дополнительной подстройки достаточно механизмов параметризации.

Машинное обучение и «человеческий фактор»

Машинное обучение в Oracle Management Cloud (часть искусственного интеллекта) позволяет «обучать» компьютерные системы на наборах данных без помощи программирования и прогнозировать взаимосвязи наборов данных. Оно дает возможность устранить «человеческий фактор», тем самым ускорив работу системы за счет исключения ручных процессов (таких как выявление корреляции данных, зависимостей и пр.).

Ускоряет оно и DevOps — комбинацию процессов разработки и эксплуатации ПО. Вместо недель и месяцев они сокращаются до дней. Кроме того, машинное обучение дает возможность выявлять неправомерные действия, аномалии в процессах.

Идентификационные, пользовательские данные, данные ИБ, диагностические, транзакционные данные, метрики (приложений, хостов, виртуальных машин, контейнеров, серверов) — данные уровня пользователя, приложения, связующего слоя, уровня виртуализации и инфраструктуры — все они хорошо подходят для машинного обучения и имеют предсказуемый формат, подчеркнул Дэвид Лерой.

Алгоритмические подходы к таким структурированным и неструктурированным данным Ops предполагают выявление аномалий, кластеризацию и корреляцию данных, прогнозирование. Они помогают найти ответы на множество вопросов. В чем причина проблемы? Как ее предотвратить в будущем? Нормальное это поведение или аномальное? Какова в действительности архитектура приложения? Что можно улучшить? На что следует немедленно обратить внимание? Что произойдет завтра? Как следует балансировать нагрузку?

Машинное обучение позволяет задействовать большие массивы данных и помогает делать обоснованные выводы. Выявление статистически значимых аномалий дает возможность выявлять ненормальное поведение объектов инфраструктуры. Распознавание и группирование записей, основанных на общих шаблонах, помогает сосредоточиться на важных данных и «отсечь» второстепенную информацию. Анализ записей, предшествующих ошибке и следующих за ней, повышает эффективность поиска первопричин проблем, постоянный мониторинг приложений для выявления проблем способствует их быстрому устранению при эксплуатации.

Автоматизация Ops

«Человеческий фактор» значительно влияет на процессы эксплуатации (Ops). Это касается инфраструктуры, инструментов управления, хранения данных, мониторинга сети. Традиционный подход предполагает обмен информацией из этих разнородных источников, и на человека возлагается задача анализа данных, их корреляции, интерпретации, понимания. При этом применяются разные инструментальные средства. Такая задача сложна, трудоемка и отнимает немало времени.

Ее автоматизация не только ускоряет процесс, но и исключает конфликты из-за разной интерпретации данных. Вот почему так важно применение современных алгоритмов машинного обучения к данным DevOps.

Oracle Management Cloud: мониторинг, агрегирование, индексирование, анализ, поиск, корреляция всех журнальных данных от приложений и компонентов инфраструктуры (локальных и облачных) в реальном времени

Корреляция пользовательских данных, данных транзакций и пр. – важнейший инструмент выявления аномалий в поведении различных программных компонентов. А прогнозирование крайне важно с точки зрения управления, мониторинга производительности приложений. Оно позволяет принять упреждающие меры, понять, на что нужно обратить внимание уже сейчас, а что произойдет завтра, или выяснить, как сбалансировать нагрузку.

Машинное обучение — очень мощный инструмент, но он, как и человек, нуждается в повторении, накоплении данных. Со временем уменьшается число ложных срабатываний (false positive). Их число можно почти на порядок уменьшить и с помощью «тонкой настройки».

«Помирить» Dev и Ops за несколько дней

Система с механизмами машинного обучения позволяет устранить барьеры между разработчиками и службами эксплуатации (Dev и Ops). Благодаря диагностике производительности приложений для DevOps, вплоть до уровня кода и SQL-запросов разработчики получают доступ к ценным диагностическим данным. Служба эксплуатации и команды разработки работают совместно, дополняя друг друга.

Число клиентов облачных сервисов Oracle Management Cloud, выпущенных менее года назад, уже превышает тысячу и растет очень быстро по всему миру. В частности, компания «ФОРС Дистрибуция» развернула их для управления частным облаком и помощи партнерам в оптимизации использования ИТ-ресурсов в их облачных проектах.

Oracle Management Cloud предоставляется по подписке и не требует приобретения аппаратных платформ. Развертывание и настройка программных агентов занимает несколько дней. Данные система может получать как с локальных систем клиента, так и из сторонних облаков, реализуя тем самым подход по мониторингу и аналитике в гибридных средах.

Механизмы настройки помогают сделать алгоритмы более точными, адаптировать их под потребности заказчика. Таким образом, система сразу готова к использованию, и со временем ее точность еще более возрастает благодаря накапливаемой статистике.

Похожие записи