数据库
首页 > 数据库> > 使用Glue抓取Azure SQL Database的数据库

使用Glue抓取Azure SQL Database的数据库

作者:互联网

1. 架构图

使用Glue抓取Azure SQL Database的数据库

2. 配置前提

2.1 配置VPC

请参考VPC配置文档:使用CLI创建VPC
同时创建一个安全组,并且至少保留一条入栈访问规则为所有流量,本条规则的目的本安全组ID。

2.2 准备好SQLDatabase

JDBC:jdbc:sqlserver://azuresql2021admin.database.windows.net:1433;database=azuresql
用户名:azure
密码:xxxx

2.3 将VPC中的NAT的EIP添加到SQL Database的防火墙

使用Glue抓取Azure SQL Database的数据库

3. 创建Glue使用的Role

打开AWS portal:https://amazonaws-china.com/cn/,并且登陆
选择Service-> 安全性、身份与合规性->IAM服务
使用Glue抓取Azure SQL Database的数据库

选择角色->添加角色
使用Glue抓取Azure SQL Database的数据库
选择为Glue创建角色
使用Glue抓取Azure SQL Database的数据库
为了配置方便,选择AdministratorAccess权限,实际项目中,依据具体需求配置权限。
使用Glue抓取Azure SQL Database的数据库
标签页选择下一步
输入role的名称,比如:AWSGlueServiceRoleDefault
使用Glue抓取Azure SQL Database的数据库
点击下一步,创建完成。

4. AWS Glue连接配置

选择Service-> 分析服务->AWS Glue
使用Glue抓取Azure SQL Database的数据库
选择连接->添加连接
使用Glue抓取Azure SQL Database的数据库

输入连接名称:JDBC,选择连接类型:JDBC,点击下一步
使用Glue抓取Azure SQL Database的数据库
输入步骤2.2中获取的信息,注意:database要改成databaseName
选择步骤2.1中准备的子网,注意,这里要选择私有子网,即路由表指向NAT Gateway的子网。
选择步骤2.1准备的安全组,点击下一步
使用Glue抓取Azure SQL Database的数据库

最后点击完成
使用Glue抓取Azure SQL Database的数据库

在Glue页面中的连接选项卡,选中刚才创建的连接,点击测试连接
使用Glue抓取Azure SQL Database的数据库

选择步骤3中创建的角色,点击测试连接
使用Glue抓取Azure SQL Database的数据库
如果配置没有问题,会显示成功
使用Glue抓取Azure SQL Database的数据库

5. AWS Glue 爬网程序

选择Service-> 分析服务->AWS Glue
使用Glue抓取Azure SQL Database的数据库
选择爬网程序->添加爬网程序
使用Glue抓取Azure SQL Database的数据库

输入爬网程序名称:JDBC-Test
使用Glue抓取Azure SQL Database的数据库
点击下一步
使用Glue抓取Azure SQL Database的数据库
选择数据存储为JDBC,连接也为JDBC,包含路径为%,点击下一步
使用Glue抓取Azure SQL Database的数据库
添加另一个数据存储为否,直接点击下一步
使用Glue抓取Azure SQL Database的数据库
选择角色为步骤3中的角色
使用Glue抓取Azure SQL Database的数据库

选择按需运行
使用Glue抓取Azure SQL Database的数据库
在输出页面,选择添加数据库
使用Glue抓取Azure SQL Database的数据库

添加数据库页面,数据库名称为garydb
使用Glue抓取Azure SQL Database的数据库

爬网输出页面选择刚才添加的数据库garydb,添加前缀为0320_
使用Glue抓取Azure SQL Database的数据库

Review后,点击完成
使用Glue抓取Azure SQL Database的数据库

在爬网程序页面,选择刚才创建的JDBC-Test爬网程序,点击运行爬网程序。
使用Glue抓取Azure SQL Database的数据库
运行完成后,点击数据库->表,可以看到刚才爬网程序爬出来的表
使用Glue抓取Azure SQL Database的数据库

使用Glue抓取Azure SQL Database的数据库

标签:JDBC,Database,爬网,选择,点击,添加,SQL,Azure,Glue
来源: https://blog.51cto.com/garycloud/2666852