merge
Инструмент merge
позволяет объединить два набора данных (datasets), при этом записи из одного dataset перезаписывают записи более старого dataset.
Например, инкрементный импорт в режиме последнего изменения (last-modified mode) будет генерировать несколько datasets в HDFS, где в каждом dataset со временем будут появляться новые данные.
Инструмент merge
выполняет слияние двух dataset в один, используя самые свежие доступные записи для каждого первичного ключа.
Использование инструмента показано ниже.
$ sqoop merge <generic-args> <merge-args>
$ sqoop-merge <generic-args> <merge-args>
Общие аргументы Hadoop должны предшествовать любым аргументам merge
.
Аргументы merge
могут указываться в любом порядке по отношению друг к другу.
--class-name <class> |
Указывает имя класса конкретной записи, который будет использоваться в процессе слияния |
--jar-file <file> |
Указывает имя JAR-файла, который содержит класс записи |
--merge-key <col> |
Указывает имя столбца для использования в качестве ключа слияния |
--new-data <path> |
Указывает путь к новому dataset |
--onto <path> |
Указывает путь к старому dataset |
--target-dir <path> |
Указывает путь для сохранения результатов слияния |