Как собирать и анализировать потоки данных в реальном времени

На рынке сбора и обработки данных несколько десятилетий подряд доминировал дискретный подход к обработке данных. Около 10 лет тому назад началась трансформация, которая привела к появлению подхода, известного, как data lake или «озеро данных». Но по мере формирования контуров облачной архитектуры стало ясно, что по сути вновь копируется централизованная архитектура девяностых годов.

Цифровая трансформация требовала совсем иного подхода. В качестве ответа на этот запрос на рынке появилась архитектура data mash, подразумевающая, что данные хранятся не только в озере данных, но и непосредственно на устройствах.

«В сетях 5G, например, значительная часть обработки данных будет проводиться на периферии сети, причем не только в периферийных ЦОД, но также и непосредственно на сетевых и терминальных устройствах, – отметил Джефф Поллок, вице-президент по развитию продуктов интеграции и потоковой аналитики из штаб-квартиры Oracle. – Например, по мере роста вычислительных мощностей это могут быть те же автономные автомобили, вычислители их автопилотов». Один из руководителей разработки Oracle рассказал, как эволюционирует архитектура работы с данными и как аналитические продукты Oracle помогают в цифровой трансформации современных предприятий.

В Oracle считают перспективным направлением создание полносвязной сети обработки данных, в которой обработка может происходить практически в любой точке системы, на периферийных узлах, в беспилотном автомобиле, в базе данных, в облаке, в озере данных, в телефоне.

Как собирать данные?

Oracle предлагает для этого эффективный и проверенный на практике инструмент – GoldenGate.

Первоначально этот продукт класса CDC (Change Data Capture) был «мостом», который позволял брать транзакции из высоконагруженных систем и мгновенно передавать их аналитической базе данных. И если на первых порах данные передавались между реляционными базами данных, теперь это кейсы передачи из реляционных в нереляционные базы данных. Сферой применения GoldenGate зачастую становится работа с нереляционными базами данных Kafka и озерами данных.

Озера данных первоначально реализовывались на технологии Hadoop. Позднее были созданы движки NoSQL, такие как MangoDB, Apache Cassandra, хранилища ключей in-memory. GoldenGate работает со всеми этими технологиями, передавая данные о транзакциях в реальном времени.

В последние годы пользовательский сценарий для GoldenGate смещается в область потоковой аналитики, то есть способности обработки данных в реальном времени. Приходится обогащать информацию о транзакциях данными из Big Data и иных систем, причем не только Oracle, но и других поставщиков.

Если заглянуть в базу данных, в ней есть такая вещь, как журнал изменений. Каждый раз, когда делается запрос, вставляется какое-то значение, удаляется какое-то значение, это меняет содержимое не только базы данных, – событие также отражается в журнале изменений.  Ведется непрерывная регистрация всех событий, которые происходят в базе данных. Анализ журнала событий позволяет понять суть происходящих событий, тогда как текущие данные в базе — это лишь отражение какого-то мгновенного ее состояния.

Можно провести аналогию с шахматной партией. Чтобы разобраться в завершенной партии, нужно проанализировать не только текущую расстановку фигур, но все ходы, которые делали игроки. База данных – это не более, чем доска, отражающая расстановку фигур, тогда как журнал изменений содержит данные  ходе «партии», о том, что и когда происходило с содержимым базы данных.

Клиенты Oracle сегодня используют GoldenGate в качестве основы не только для создания систем высокой доступности, но и для обработки потоковой информации. Впрочем, актуальной остается и задача обеспечения миграции данных, заполнения данными хранилищ – традиционные задачи GoldenGate.

Большинство компаний  используют GoldenGate не только для работы с системами Oracle, но и для работы с другими системами. Реляционные базы данных – это основа, но при этом продукт работает и другими, самыми разными данными – NoSQL, потоковыми и так далее. Репликация транзакции осуществляется в пределах миллисекунд. Есть примеры использования GoldenGate в облаке, в том числе, в облаке у потребителя (Cloud at Customer Premises). Это очень гибкое решение, позволяющее реплицировать информацию не только внутри компании, но и между компаниями.

Oracle постоянно наращивает инвестиции в развитие GoldenGate, практически с момента интеграции в порфолио корпорации 11 лет назад. Сейчас в разработке продукта задействовано порядка 300 инженеров, работающих в различных странах мира. Ежегодно выходит очередной релиз.

Oracle предоставляет GoldenGate в облаке и работает над тем, чтобы создать сервис Cloud Native GoldenGate. В версии 12.3 появилась поддержка микросервисной архитектуры, причем нативная. Это означает, что можно работать практически с любой архитектурой, в частности, в случае 5G можно обеспечить сбор данных и результаты их обработки непосредственно с периферии сети.

Как анализировать данные?

Данные собраны, точнее, организован непрерывный процесс их сбора. Теперь нужно извлечь из них полезную информацию, причем делать это необходимо практически в режиме реального времени, работая непосредственно с потоком данных. Для этого предназначен такой мощный инструмент, как Oracle Stream Analytics (OSA).

Этот продукт может обеспечивать решение задач анализа транзакций. Технология знает о каждом действии, каждом событии, каждой транзакции. И не только в Oracle, а в любой подключенной к нему СУБД любого известного вендора, записанной в Kafka посредством GoldenGate. Благодаря этому можно вести анализ всех транзакций. Это может быть анализ по временным рядам, геопространственный анализ, можно выявить типичные транзакции, проанализировать события, зафиксированные подключенными устройствами. Все, что публикуется через сервис обмена сообщениями, OSA способен мгновенно сопоставить с транзакциями в базе данных, выполнив необходимый анализ за считанные миллисекунды.

Компании по всему миру переходят на архитектуру data mash, полносвязную сеть данных.  Эволюционно они уходят от монолитных систем, ориентированных на системы хранения данных. Наметился тренд на построение систем, основанных на работе с транзакциями.  Технологии GoldenGate и Oracle Stream Analytics критически важны для инфраструктур, где требуется обрабатывать данные непосредственно в потоке.

Видео. Локация и аналитика на карте: интерактивная визуализация событий на карте, масштабируемые гибкие зоны для обработки событий, широкий набор функций для обработки локаций

Наглядный интерфейс OSA позволяет бизнесу самостоятельно, в несколько кликов мышки, собирать те или иные логические обработчики анализируемой информации, проводить вычисления на основе данных, отображать результаты обработки и вычислений. С такими «настройками» способен справиться практически любой бизнес-пользователь, без необходимости привлечения ИТ-персонала.

Основным преимуществом Oracle Stream Analytics является то, что продукт включает обширный набор преднастроенных функций для обработки потоковых данных, а также красивые шаблоны визуализации, в том числе, для использования на географических картах.

Основное достоинство платформы Oracle Stream Analytics в том, что она позволяет бизнесу быстро извлечь value из данных.

Вместе – сильнее

Важно понимать, что хотя и Golden Gate, и Oracle Stream Analytics являются самостоятельными, комплексными и многофункциональными продуктами, наибольшую эффективность при работе телеком-оператора с данными в реальном времени обеспечит их тандем. По отношению к работе с потоками данных эти продукты комплиментарны и обеспечивают мощный синергетический эффект.

Работа с потоками данных позволяет эффективно контролировать изменения паттернов потребления данных абонентами, изменения в распределении пользователей «по географии». А в чрезвычайной ситуации важность знаний, что происходит на сети оператора в любой момент времени, возрастает. Это создает надежную основу для оперативного принятия мер, призванных поддержать стабильную работу сети и надлежащее качество оказания услуг, и позволяет не утратить понимание ситуации, что может возникнуть, если у оператора нет возможности для оперативного и наглядного контроля за данными.

Источник: блог Oracle

Оригинал опубликован на MForum

 

Похожие записи