python – 数据识别,解析,过滤和转换 – GUI?
作者:互联网
寻找一种非基于云的开源应用程序来进行数据转换;虽然对于仅为数据转换而构建的杀手(我的意思是杀手)应用程序,我可能愿意花费高达1000美元.
我看过Perl,Kapow Katalyst,Pentaho Kettle等等.
Perl,Python,Ruby显然是语言,但无法找到任何框架/ DSL只是为了处理数据;这意味着他们真的不是一个很好的开发环境,这意味着没有用于构建RegEx,输入/输出(CSV,XML,JDBC,REST等)的构建GUI,没有用于测试行和数据行的调试器 – 它们是还不错,只是不是我正在寻找的,这是一个为复杂的数据转换而构建的GUI;那就是说,如果GUI / app文件是脚本语言,我很乐意,而不仅仅是存储在一些非人类可读的XML / ASCII文件中.
Kapow Katalyst用于通过HTTP(HTML,CSS,RSS,JavaScript等)访问数据,它有一个很好的GUI来转换非结构化文本,但这不是它的核心价值产品,而且太昂贵了.它可以很好地遍历文档命名空间路径;猜测它只是后端的XPath,因为语法看起来是一样的.
Pentaho Kettle有一个很好的GUI用于大多数常见数据存储的INPUT / OUTPUT,并且它自己处理数据处理;这是好的,只是有一个小的学习曲线. Kettle的调试器没问题,因为数据很容易看到,但是错误和异常没有与输出一起使用,也没有办法真正调试问题;意味着您无法重新加载输出/错误/异常,但能够查看系统反馈.所有这一切,水壶数据转换是_______好吧,让我们说它让我觉得我必须遗漏一些东西,因为我完全不知道“如果它不可能,只需用JavaScript编写转换”;嗯,什么?
那么,有什么建议吗?要意识到我还没有真正指出任何transformations,但如果你真的使用产品进行数据修改,我想知道它;我猜,甚至出类拔萃.
但总的来说,目前我正在寻找一种能够处理1000-100,000行,10-100列的产品.如果它可以分析数据集,那将是非常酷的,这是Kettle类似的功能,但不是很好.我也喜欢内置的单元测试,这意味着我能够构建控制数据集,并运行针对控件集的更改.然后,我希望能够有选择地过滤掉行和列,因为我在不改变构建的情况下构建转换;例如,我通过转换运行数据集,过滤结果,然后在第一次“逻辑”发生时自动阻止这些集合;这反过来意味着更少的数据“看”,每个增强迭代的运行时间减少;什么是疯狂的好,如果我过滤掉行/列,应用程序跟踪那些,(并输出被过滤掉).并且单元测试/突出显示任何变化.如果我做了一个会影响应用程序日志的更改,并且能够根据我“打破分支”跟踪单元测试 – 它会给我一个警告,让我转储存储分支的数据……和/或跟踪下一代输出差异的主要关键,甚至尝试使用模糊逻辑匹配它们.是的,我知道这是一个白日梦,但嘿,我想问,以防万一有什么东西我从来没有见过.
随意发表评论,我很乐意回答任何问题,或提供更多信息.
解决方法:
标签:python,ruby,perl,data-manipulation,kettle 来源: https://codeday.me/bug/20190518/1129175.html