异构数据库数据同步工具DataX教程,安装数据同步java执行

DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异构数据源之间高效的数据同步功能。

DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统,每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

或者

注意:dataX需要在jdk1.8及Python2.0以上运行查询jdk

#java-version查询Python

安装完成。

这里我以从SqlServer数据库中的一张表数据同步到MySQL中为例讲解一下数据同步功能。

首先需要说明一下这里的操作原理,建议看一下方便理解。如果想直接实操的可以跳过【一、】这个步骤。

在刚刚我们执行的#bin/datax.pyjob/job.json命令中分为两个步骤,第一个是启动名为datax.py的Python脚本。第二个是通过datax.py脚本来执行一个job.json文件。

datax.py脚本就不多说了,大家可以打开自己看看。主要我们要知道的是job.json文件,该文件也是我们用于进行数据同步功能的主要配置文件。

job.json文件内容:

{ "content":[ { "reader":{ "name":"streamreader", "parameter":{ "column":[ { "type":"string", "value":"DataX" }, { "type":"long", "value":19890604 }, { "type":"date", "value":"1989-06-0400:00:00" }, { "type":"bool", "value":true }, { "type":"bytes", "value":"test" } ], "sliceRecordCount":100000 } }, "writer":{ "name":"streamwriter", "parameter":{ "encoding":"UTF-8", "print":false } } } ], "setting":{ "errorLimit":{ "percentage":0.02, "record":0 }, "speed":{ "byte":10485760 } }}解析(个人理解,非官方语言):

setting:对上面执行单元的基本设置

看完上面配置文件的解释大家应该可以明白,数据同步的规则就是配置一个读入数据源一个写出数据源,执行之后即可进行数据同步。

查询结果

数据同步功能完成!

原理实际上没区别,直接用java输入刚刚自己在命令行中输入的命令即可

下面代码是java执行Linux命令

try{String[]cmd=newString[]{"/bin/sh","-c","/opt/software/datax/bin/datax.py./steamSqlServerMysql.json"};Processps=Runtime.getRuntime().exec(cmd);BufferedReaderbr=newBufferedReader(newInputStreamReader(ps.getInputStream()));StringBuffersb=newStringBuffer();Stringline;while((line=br.readLine())!=null){sb.append(line).append("\n");}Stringresult=sb.toString();logger.info(result);}catch(Exceptione){logger.error("----error-----");e.printStackTrace();}如果觉得有帮助的话给个免费的点赞吧,Thanks(ω)

JUC包的学习可以点这里摘要:我们已经知道,synchronized是java的关键字,是Java的内置特性,在JVM层面实现了对临界资源的同步互斥访问,但synchronized粒度有些大,在处理实际问题时存在诸多局限性,比如响应中断等。Lock提供了比synchronized更广泛的锁操作,它能以更优雅的方式处理线程同步问题。本文以synchronized与Lock的对比为切...

1.java实现多线程有几种方法2种根据Oracle的官方说明。方法一:实现Runnable接口方法二:继承Thread类方法一:方法二:这两种实现那种更好方法一的run方法二和方法一致但是实现继承会覆盖run方法同时继承Thread和实现Runnable接口console:我来自Thread为什么输出的是我来自Thread因为在实现Thread时也重...

TheBootstrapApplicationContext概念这里是引用ASpringCloudapplicationoperatesbycreatinga“bootstrap”context,whichisaparentcontextforthemainapplication.Itisresponsibleforl...

思路:利用数组来存取数字,再利用头文件algorithm中提供的sort函数进行排序输出,这是个快速排序。...

让我们开始吧更新ppa源,更新apt源信息使用系统设置面板更新显卡驱动更新ppa源,更新apt源信息使用系统设置面板更新显卡驱动打开“系统设置”(SystemSettings)-->“软件与更新”(Software&Updates),点击“额外驱动”(AdditionalDrivers),可...

本文主要参考的是kaldi-asr.org,主要讲述的是用自己的录音来构建一个数字串识别系统。本文将主要分为以下几个部分:录制语音这里是英文数字串识别,因此需要一些用英语朗读数字的语音。我录制了128个语音文件,分别是两个人朗读,其中每个文件只包含三个数字。这128文件中80个用于训练,48个用于测试。并且训练数据和测试数据都被分成了8部分(可以假装成8个人),每部...

Question问题描述如下:为啥是日本呢,真的不是有意的,我发四。。。Solution解决办法很简单,只要判断条件就好了,代码如下:Result运行代码就可以揭开凶手的面纱了:...

THE END
1.大数据视频DataX教程简介大数据视频DataX教程简介 尚硅谷教育2021.10.13 10:03 +1 首赞 DataX是阿里巴巴开源的异构数据源离线同步工具,实现了多种数据库与各种异构数据源之间稳定高效的数据同步。本套视频教程从DataX安装部署开始讲起,详解了MySQL、Oracle、MongoDB、SQLServer、DB2等数据库的数据同步操作,更深入内核源码解读数据同步的执行流程https://www.sohu.com/a/494752442_100110101
2.DataX及DataXWeb使用教程DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。 DataX安装 1.下载python(推荐2.7.x) https://www.jianshu.com/p/10f35bdb05c7
3.超详细教程:如何用C#控制机械写毛笔字endData = Date2.IndexOf('\n');// 根据换行符拆分轨迹数据 temp = Date2.Substring(0, endData); Date2 = Date2.Substring(endDat + 1); startDataX = temp.IndexOf('X'); endDataX = temp.IndexOf('*'); lengthDataX = endDataX - startDataX -2; http://www.360doc.com/content/20/0917/13/29968938_936204895.shtml
4.DataX教程(03)源码解读(超详细版)《DataX教程(01)- 入门》 《DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)》 本文需要讲解的是DataX的源码。 02 DataX框架讲解 2.1 DataX设计思想 DataX采用Framework + plugin架构构建,将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。 https://developer.aliyun.com/article/1045805
5.阿里巴巴DataX:异构数据源同步工具详解与部署指南【一】DataX概述 DataX是阿里巴巴开源的一个异构数据源(多种不同数据源)离线同步工具,用于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 支持的数据源如下: 【二】DataX架构原理 https://blog.csdn.net/weixin_44823875/article/details/136547603
6.DataX教程(04)配置完整解读51CTO博客可以看到,DataX执行成功,结果如下(与IDEA下运行DataX的效果一致,可参考:《DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)》): 2.1.2 使用PyCharm运行datax.py 要解读datax.py?最好的方式是断点调试,我这里使用https://blog.51cto.com/u_15294985/5147900
7.datax二次开发使用教程从hive抽取数据,写入hbase 一.datax插件hbase12xwriter开发 查看datax源码,发现有hbase094xwriter和hbase11xwriter源码,说明datax支持hbase写入,再查看测试和生产环境使用的hbase版本是:hbase-1.2.0-cdh5.8.4 自己写一个hbase12xwriter插件包 开发流程: 1.搭建项目模块module datax-all项目上右击->New->other-https://www.shuzhiduo.com/topic/datax%E4%BA%8C%E6%AC%A1%E5%BC%80%E5%8F%91%E4%BD%BF%E7%94%A8%E6%95%99%E7%A8%8B/
8.免费修复:快速下载并安装datax.dll文件教程在Windows操作系统中,datax.dll文件是一个重要的动态链接库文件,常常被用于各种软件和游戏的正常运行。如果电脑中缺少datax.dll文件,可能会导致某些程序无法启动或运行时出现错误提示。这种情况可能发生在安装新软件后,或由于病毒攻击、意外删除等原因导致文件丢失或损坏。 要修复缺少的datax.dll文件,可以按照以下步骤进https://www.ijinshan.com/dll/repairdll20240911164351525.html
9.使用idea启动DataX的方法示例IT知识教程datax web项目地址: https://github.com/WeiYe-Jing/datax-web vm option 需要写上你用maven打包后生成的target目录 -Ddatax.home=/Users/huzekang/openSource/DataX/target/datax/datax program args -mode standalone -jobid -1 -job /Users/huzekang/openSource/DataX/job-sample/oracle2mysql.json https://www.300.cn/itzspd/512240.html
10.DataX加载CSV数据文件到OceanBaseV1.0.0DataX 是阿里云 DataWorks 数据集成的开源版本,是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SQLserver、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 、OceanBase 等各种异构数据源之间高效的数据同步功能。 https://www.oceanbase.com/docs/enterprise-tutorials-cn-10000000000012270
11.如何基于Dataphin调用DataX同步数据DataX是异构数据源离线同步的工具,支持多种异构数据源之间高效的数据同步。Dataphin系统内嵌了DataX组件,支持通过构建Shell任务调用DataX,实现数据同步。本教程以RDS MySQL数据库为例,为您介绍基于Dataphin如何调用DataX同步数据。 前提条件 已开通RDS MySQL实例,且RDS MySQL实例的网络类型为专有网络。如何开通RDS MySQLhttp://help.xihaba.cn/?document_detail/191247.html
12.大数据技术之DataX谷粒学苑作为离线数据同步框架,DataX采用Framework + plugin架构构建,将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。目前DataX已经有了比较全面的插件体系,主流的关系型数据库、NoSQL、大数据计算系统都已接入。 本套视频教程从DataX安装部署开始讲起,详细讲解了MySQL、Oracle、MongoDB、SQLServer、DB2等https://www.gulixueyuan.com/course/473
13.大数据datax安装步骤与使用大数据学习——dataX工具部署和源码编译 为了做大数据项目数据抽取工作,开始学习dataX,尝试比较dataX(版本 3.0)与sqoop的功能与性能差异。以下教程包括: 下载dataX工具及简要使用、下载dataX源码尝试编译及遇到的问题、尝试改造开源项目dataX 一、下载dataX工具及简要使用 gitHub下载(在下面的README里,Quick Start栏中https://www.pianshen.com/article/88962015637/
14.springbootSpringBoot-DataX是一种使用SpringBoot框架启动DataX的解决方案,能够以Web方式方便地使用。通过在SpringBoot应用中集成DataX,用户可以通过简单的HTTP请求或Web界面来操作数据同步任务,实现方便的可视化管理和监控。使用SpringBoot-DataX,用户可以利用SpringBoot的自动配置和快速启动特性,快速搭建数据同步服务,并且可以通过https://www.coder100.com/index/index/content/id/3167439
15.sap利用VMDEIAPI=)MAINTAIN创建供应商主数据mysql教程LWA_VEND-CENTRAL_DATA-CENTRAL-DATA-KTOKK = 'Z002'. LWA_VEND-CENTRAL_DATA-CENTRAL-DATAX-KTOKK = 'X'. *地址数据 LWA_VEND-CENTRAL_DATA-ADDRESS-TASK = 'I'. LWA_VEND-CENTRAL_DATA-ADDRESS-POSTAL-DATA-TITLE = '0002'. LWA_VEND-CENTRAL_DATA-ADDRESS-POSTAL-DATA-NAME = 'LSI Logic Storage https://www.php.cn/faq/127646.html