Открыт исходный код базы данных Greenplum — продвинутого warehouse на базе PostgreSQL

2015-10-29

Вчера, 28 октября, стало известно об открытии исходного кода базы данных Greenplum Database (GPDB), позиционируемой как продвинутое полнофункциональное Open Source-хранилище данных (warehouse) на основе свободной СУБД PostgreSQL.

Greenplum — СУБД, созданная одноименной компанией, которая была в 2010 году куплена EMC Corporation, а в 2013 году перешла к Pivotal Software. Открытие кода GreenplumDB (GPDB) было анонсировано Pivotal ещё в феврале, и теперь это стало реальностью: проект получил свой сайт, а исходники опубликованы на GitHub под свободной лицензией Apache License v2. Greenplum обеспечивает мощную и быструю аналитику по огромным массивам данных и, как утверждают разработчики, использует «самый продвинутый в мире оптимизатор запросов на основе оценки их стоимости».

Основой для GPDB служит свободная СУБД PostgreSQL, функциональные возможности которой были расширены с помощью:

  • архитектуры для массовой параллельной обработки данных (автоматическое распараллеливание всех данных и запросов),
  • технологии MPP для высокой производительности в масштабах петабайтов,
  • инновационного оптимизатора запросов (его аналитические возможности масштабируются на крупные наборы данных без ущерба производительности и пропускной способности),
  • полиморфного (ориентированного на столбцы или строки) хранилища и обработки данных,
  • продвинутого машинного обучения на базе библиотеки Apache MADLib.

Кластер Greenplum состоит из мастер-сервера, в котором хранятся только метаданные, и множества «сегментных» серверов, где находятся все пользовательские данные. Все серверы используют одну и ту же схему БД.

Подробности о GPDB, документация по проекту и анонсы событий, связанных с ним, доступны на greenplum.org.