阿里DataX极简教程Naylor

DataX是一个数据同步工具,可以将数据从一个地方读取出来并以极快的速度写入另外一个地方。常见的如将mysql中的数据同步到另外一个mysql中,或者另外一个mongodb中。

1:DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataXJob模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。

2:DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。

3:切分多个Task之后,DataXJob会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5

4:每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作

5:DataX作业运行起来之后,Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0

举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。DataX的调度决策思路是:

作为极简教程,本文将从mysql中读取一张表的数据,然后同步到clickhouse中。

下载下来是一个tar.gz的包,windows下解压命令:

tar-zxvfxxx.tar.gz程序目录:

DataX是基于python和java的,需要机器拥有python和java的运行环境。

在下载完毕后,通过执行自检脚本,可确认环境是否正确

python{YOUR_DATAX_HOME}/bin/datax.py{YOUR_DATAX_HOME}/job/job.json执行流程编写同步任务配置文件,在job目录中创建mysql-to-clickhouse.json文件,并填入如下内容

{"job":{"setting":{"speed":{"channel":3},"errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"mysqlreader","parameter":{"username":"xxx","password":"xxx","column":["id","name"],"splitPk":"id","connection":[{"table":["table_name"],"jdbcUrl":["jdbc:mysql://192.168.1.xxx:xxx/db_name"]}]}},"writer":{"name":"clickhousewriter","parameter":{"username":"xxx","password":"xxx","column":["id","ame"],"connection":[{"jdbcUrl":"jdbc:clickhouse://192.168.1.xxx:xxx/table_name","table":["table_name"]}],"preSql":[],"postSql":[],"batchSize":65536,"batchByteSize":134217728,"dryRun":false,"writeMode":"insert"}}}]}}根据任务配置文件启动datax,先cd到datax的根目录

pythonbin/datax.pyjob/mysql-to-clickhouse.json运行上述命令后,任务就开启了。本例从mysql数据库中的一张表中读取了两个字段(id,name),然后同步到clickhouse中,clickhouse中需要先创建同样的库,表和列。

THE END
1.大数据视频DataX教程简介大数据视频DataX教程简介 尚硅谷教育2021.10.13 10:03 +1 首赞 DataX是阿里巴巴开源的异构数据源离线同步工具,实现了多种数据库与各种异构数据源之间稳定高效的数据同步。本套视频教程从DataX安装部署开始讲起,详解了MySQL、Oracle、MongoDB、SQLServer、DB2等数据库的数据同步操作,更深入内核源码解读数据同步的执行流程https://www.sohu.com/a/494752442_100110101
2.DataX及DataXWeb使用教程DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。 DataX安装 1.下载python(推荐2.7.x) https://www.jianshu.com/p/10f35bdb05c7
3.超详细教程:如何用C#控制机械写毛笔字endData = Date2.IndexOf('\n');// 根据换行符拆分轨迹数据 temp = Date2.Substring(0, endData); Date2 = Date2.Substring(endDat + 1); startDataX = temp.IndexOf('X'); endDataX = temp.IndexOf('*'); lengthDataX = endDataX - startDataX -2; http://www.360doc.com/content/20/0917/13/29968938_936204895.shtml
4.DataX教程(03)源码解读(超详细版)《DataX教程(01)- 入门》 《DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)》 本文需要讲解的是DataX的源码。 02 DataX框架讲解 2.1 DataX设计思想 DataX采用Framework + plugin架构构建,将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。 https://developer.aliyun.com/article/1045805
5.阿里巴巴DataX:异构数据源同步工具详解与部署指南【一】DataX概述 DataX是阿里巴巴开源的一个异构数据源(多种不同数据源)离线同步工具,用于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 支持的数据源如下: 【二】DataX架构原理 https://blog.csdn.net/weixin_44823875/article/details/136547603
6.DataX教程(04)配置完整解读51CTO博客可以看到,DataX执行成功,结果如下(与IDEA下运行DataX的效果一致,可参考:《DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)》): 2.1.2 使用PyCharm运行datax.py 要解读datax.py?最好的方式是断点调试,我这里使用https://blog.51cto.com/u_15294985/5147900
7.datax二次开发使用教程从hive抽取数据,写入hbase 一.datax插件hbase12xwriter开发 查看datax源码,发现有hbase094xwriter和hbase11xwriter源码,说明datax支持hbase写入,再查看测试和生产环境使用的hbase版本是:hbase-1.2.0-cdh5.8.4 自己写一个hbase12xwriter插件包 开发流程: 1.搭建项目模块module datax-all项目上右击->New->other-https://www.shuzhiduo.com/topic/datax%E4%BA%8C%E6%AC%A1%E5%BC%80%E5%8F%91%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B/
8.免费修复:快速下载并安装datax.dll文件教程在Windows操作系统中,datax.dll文件是一个重要的动态链接库文件,常常被用于各种软件和游戏的正常运行。如果电脑中缺少datax.dll文件,可能会导致某些程序无法启动或运行时出现错误提示。这种情况可能发生在安装新软件后,或由于病毒攻击、意外删除等原因导致文件丢失或损坏。 要修复缺少的datax.dll文件,可以按照以下步骤进https://www.ijinshan.com/dll/repairdll20240911164351525.html
9.使用idea启动DataX的方法示例IT知识教程datax web项目地址: https://github.com/WeiYe-Jing/datax-web vm option 需要写上你用maven打包后生成的target目录 -Ddatax.home=/Users/huzekang/openSource/DataX/target/datax/datax program args -mode standalone -jobid -1 -job /Users/huzekang/openSource/DataX/job-sample/oracle2mysql.json https://www.300.cn/itzspd/512240.html
10.DataX加载CSV数据文件到OceanBaseV1.0.0DataX 是阿里云 DataWorks 数据集成的开源版本,是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SQLserver、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 、OceanBase 等各种异构数据源之间高效的数据同步功能。 https://www.oceanbase.com/docs/enterprise-tutorials-cn-10000000000012270
11.如何基于Dataphin调用DataX同步数据DataX是异构数据源离线同步的工具,支持多种异构数据源之间高效的数据同步。Dataphin系统内嵌了DataX组件,支持通过构建Shell任务调用DataX,实现数据同步。本教程以RDS MySQL数据库为例,为您介绍基于Dataphin如何调用DataX同步数据。 前提条件 已开通RDS MySQL实例,且RDS MySQL实例的网络类型为专有网络。如何开通RDS MySQLhttp://help.xihaba.cn/?document_detail/191247.html
12.大数据技术之DataX谷粒学苑作为离线数据同步框架,DataX采用Framework + plugin架构构建,将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。目前DataX已经有了比较全面的插件体系,主流的关系型数据库、NoSQL、大数据计算系统都已接入。 本套视频教程从DataX安装部署开始讲起,详细讲解了MySQL、Oracle、MongoDB、SQLServer、DB2等https://www.gulixueyuan.com/course/473
13.大数据datax安装步骤与使用大数据学习——dataX工具部署和源码编译 为了做大数据项目数据抽取工作,开始学习dataX,尝试比较dataX(版本 3.0)与sqoop的功能与性能差异。以下教程包括: 下载dataX工具及简要使用、下载dataX源码尝试编译及遇到的问题、尝试改造开源项目dataX 一、下载dataX工具及简要使用 gitHub下载(在下面的README里,Quick Start栏中https://www.pianshen.com/article/88962015637/
14.springbootSpringBoot-DataX是一种使用SpringBoot框架启动DataX的解决方案,能够以Web方式方便地使用。通过在SpringBoot应用中集成DataX,用户可以通过简单的HTTP请求或Web界面来操作数据同步任务,实现方便的可视化管理和监控。使用SpringBoot-DataX,用户可以利用SpringBoot的自动配置和快速启动特性,快速搭建数据同步服务,并且可以通过https://www.coder100.com/index/index/content/id/3167439
15.sap利用VMDEIAPI=)MAINTAIN创建供应商主数据mysql教程LWA_VEND-CENTRAL_DATA-CENTRAL-DATA-KTOKK = 'Z002'. LWA_VEND-CENTRAL_DATA-CENTRAL-DATAX-KTOKK = 'X'. *地址数据 LWA_VEND-CENTRAL_DATA-ADDRESS-TASK = 'I'. LWA_VEND-CENTRAL_DATA-ADDRESS-POSTAL-DATA-TITLE = '0002'. LWA_VEND-CENTRAL_DATA-ADDRESS-POSTAL-DATA-NAME = 'LSI Logic Storage https://www.php.cn/faq/127646.html