Kettle数据抽取实战之四:网页数据抽取
作者:互联网
1.运行Kettle,在菜单栏中单击“文件”选项,在弹出的下拉菜单中选择“新建”-“转换”选项,在打开的界面中选择“输入”-“生成记录”选项,在“查询”中选择“HTTP client”选项,在“输入”中选择“Get data form XML”选项,在“转换”中选择“字段选择”选项,将它们拖拽到中间工作区域,并建立及诶单链接,生成界面如下图
2.双击打开“生成记录”对话框,在“名称”列输入“url”,在“类型”列输入“String”,在“值”列输入网址:https://services.odata.org/V3/Northwind/Northwind.svc/Products/,如下图
3.单击“预览”,可查看生成记录的数据,如下图
4.双击“HTTP client”,在打开的对话框中选择“从字段中获取URL”,设置“URL字段名”为url,“结果字段名”为result,如下图
5.双击“Get data form XML”图标,选择“文件”选项卡,选中“XML源定义在一个字段里?”复选框,设置“XML源字段名”为result,如下图
6.选择“内容”选项卡,在“循环读取路径”文本框中输入“/feed/entry/content/m:properties”,该路径是XML语法中的Xpath查询,用于读取网页数据中的节点内容,如下图
7.选择“字段”选项卡,在其中输入下面字段内容,如下图
8.双击“获取字段”,在“选择和修改”中输入字段内容,如下图
9.保存该文件,运行“执行”,在“执行结果”栏中的“步骤度量”查看执行状况,如下图
标签:XML,选项,抽取,Kettle,如下,选择,之四,双击,输入 来源: https://blog.csdn.net/qq_41749451/article/details/120516866