Arenadata Hadoop получил единую точку простого и безопасного доступа к данным
Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) новый сервис Apache Kyuubi — распределённый многопользовательский SQL-шлюз для корпоративных хранилищ и озёр данных. Он расширяет возможности быстрой интерактивной аналитики в Arenadata Hadoop и обеспечивает простой и безопасный доступ к любому ресурсу кластера через единую точку входа.
Kyuubi предоставляет унифицированный интерфейс для доступа к вычислительным движкам через единую систему аутентификации и авторизации. Благодаря сервису дата-сайентисты и аналитики получают возможность обрабатывать данные с помощью привычного движка, поддерживаемого продуктом. В свою очередь, администраторам баз данных предоставляется единый интерфейс для конфигурации, обеспечения безопасности и управления доступом к данным.
Новый сервис предоставляет SQL-интерфейс и поддержку JDBC/ODBC, что делает его удобным для пакетной обработки ETL/ELT, аналитики, ad-hoc-задач и интеграции с BI-системами. Kyuubi также предоставляет эффективное управление вычислительными ресурсами движка Spark SQL, давая возможность как объединять вычислительные ресурсы для группы пользователей в одной сессии, так и гарантировать изоляцию необходимых ресурсов для каждого пользователя или подключения.
Функции обеспечения безопасности и высокой доступности — фундаментальные требования для корпоративного использования. В рамках этой тенденции в Kyuubi внедрена поддержка LDAP-аутентификации для клиентов, а также добавлен плагин Kyuubi AuthZ для Spark 3, обеспечивающий управление доступом к данным, — функциональность доступна, начиная с версии ADH 3.2.4.3. В контексте улучшения высокой доступности команда Arenadata разработала и отдала в апстрим проекта возможность использовать PostgreSQL в качестве хранилища метаданных (metastore).
Помимо базового варианта использования, Kyuubi позволяет расширить возможности сервера и вычислительных движков. Для сервера доступно внедрение пользовательских функций в модули, отвечающие за аутентификацию, конфигурацию и др. Для вычислительных движков можно добавить новые возможности путём разработки собственных плагинов и применения сторонних.
Возможности Arenadata Hadoop
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных.
Решаемые задачи:
- Хранение и обработка больших объёмов слабоструктурированных и неструктурированных данных любого типа (системы управления документами и контентом, хранение и регистрация событий, данные датчиков, каталоги товаров, резервное копирование других СУБД).
- Распределённая обработка информации.
- Построение озёр и фабрик данных (единый центр всех данных компании, быстрое развёртывание и сворачивание «песочниц» для пилотных проектов и проверки статистических гипотез, работа с аналитическими инструментами в единой среде).
- Машинное обучение и искусственный интеллект.
- Источник данных для КХД.
- Импортозамещение западных систем.
На Arenadata Hadoop получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.
Источник: Arenadata