-
Notifications
You must be signed in to change notification settings - Fork 10
Home
Alexsey Konstantinov edited this page Feb 1, 2023
·
28 revisions
- Краткое руководство
- Управление Getl
- Работа с источниками CSV
- Работа с источниками Excel
- Работа с источниками JDBC
- Язык хранимых процедур Getl
- Работа с Micro Focus Vertica
Groovy ETL (Getl) - open source проект на Groovy, разрабатываемый с 2012 года для автоматизации загрузки и обработки данных из различных источников. Является частью центра разработки ETL/ELT процессов EasyPortal компании EasyData.
- Копирование наборов данных между СУБД, файловыми и облачными источниками;
- Захват и доставка инкрементов данных из источников в хранилище данных;
- Копирование и обработка файлов из локальных и внешних файловых источников;
- Ускоренная разработка пилотных проектов для хранилищ данных (преобразование структуры источников в таблицы, многопоточная перегрузка данных из источников в таблицы)
- Автоматизация работы со стендами для разработки, тестирования и промышленной эксплуатации ETL проектов;
- Автоматизация тестирования etl процессов;
- Автоматизация мониторинга наполнения данных в хранилище данных;
- Централизация хранения описаний источников данных и их структур в репозитории;
- Разработка повторно используемых шаблонов для обработки данных.
IBM DB2, FireBird, H2 Database, Hadoop Hive, Cloudera Impala, MS SQLServer, MySql, IBM Netezza, NetSuite, Oracle, PostgreSql, Micro Focus Vertica, SAP Hana, SQLite.
CSV, MS Excel, Json, XML, Yaml, DBF.
Kafka, SalesForce.
Local file systems Windows and Linux, FTP, SFTP, Hadoop HDFS.
- Создание и удаление таблиц и временных таблиц;
- Создание индексов;
- Управление разделами таблиц (только для Vertica)
- Чтение записей из таблиц и запросов;
- Добавление, изменение и удаление записей в таблицах;
- Пакетная загрузка CSV-файлов в таблицы (H2 Database, PostgreSQL, Vertica, Hive и Impala);
- Выполнение SQL-запросов.
- Чтение записей из файлов;
- Сохранение записей в файлы (только CSV и Json);
- Разделение файлов на части заданного размера при записи (только CSV);
- Работа с файлами, сжатыми в Gz;
- Удаление файлов.
- Чтение записей из наборов данных;
- Сохранение записей в наборы данных (Kafka).
- Создание и удаление каталогов;
- Загрузка и выгрузка файла с сервера в локальный каталог;
- Переименование и перемещение файлов на сервере
- Выполнение команды ОС на сервере (локальные файловые системы и SFTP).
- ETL:
- Копирование записей из источника в источник или из нескольких источников одновременно;
- Чтение записей из источника с обработкой ошибок;
- Сохранение записей в одном источнике или нескольких источниках одновременно;
- ELT:
- Выполнение скриптов на собственном языке хранимых процедур Getl;
- Копирование записей между таблицами одной и той же СУБД (insert select);
- Файловые операции:
- Копирование иерархии каталогов и их файлов между двумя файловыми системами;
- Очистка иерархии каталогов и их файлов в файловой системе;
- Многопоточный процессинг файлов из файловой системы;
- Репозиторий объектов:
- Сохранение и чтение описаний объектов репозитория из файлов репозитория, в том числе ресурсных файлов проекта Java/Groovy;
- Обработка объектов репозитория по группе имен или маске;
- Конфигурация и ресурсы:
- Загрузка и сохранение конфигурационных файлов;
- Работа с загруженными конфигурациями;
- Чтение ресурсных файлов проекта Java/Groovy;
- Логирование и профилирование:
- Логирование сообщений, событий, ошибок, посылаемых на сервера команд;
- Профилирование времени выполнения команд и блоков кода;
- Управление выполнением:
- Контроль разрешения на запуск процессов;
- Автоматическое клонирование и освобождение объектов репозитория для работы кода в потоках;
- Автоматическое освобождение временных объектов репозитория при завершении создавших их процессов;
- Команды завершения процесса и приложения.