google-bigquery

首页 > TAG信息列表 > google-bigquery

python-气流DAG-如何首先检查BQ(如有必要,请删除),然后运行数据流作业？

我正在使用云编写器来协调ETL,以获取到达BigCS的GCS中到达的文件.我有一个云函数,当文件到达时会触发dag,而云函数会将文件名/位置传递给DAG.在我的DAG中,我有2个任务： 1)使用DataflowPythonOperator运行一个数据流作业,该作业从GCS中的文本读取数据并将其转换并将其输入到BQ中,以及

BigQuery,TableRow：使用Java API访问重复的记录

我正在通过Java API和新服务Dataflow访问BigQuery数据.我希望TableRow类具有以下方法： >返回TableCell实例的列表(在重复字段的情况下) >返回一个TableRow实例(如果是嵌套字段)>返回TableRow实例的列表(如果重复嵌套字段) 但是我只能使用get方法找到访问TableRow实例的字段的示例代

python-Bigrquery无法强制转换整数

我最近开始在R中使用“ bigrquery”包从Google Bigquery获取一些数据,但是我收到的数据框中的大多数整数列都有NA. Google自己的BigQuery仪表板中的相同SQL查询返回有效结果.我也在python中尝试过,同一查询也在那里返回有效结果,因此它确实是R特定的(这不是授权问题). 当我在R中调

mysql-Google大查询中是否有任何方法可以从左向右一对一连接*无需重复使用*右边的任何行？

我们在一个表中有一组患者,我们希望将每个患者与另一个表中的患者完全匹配-但我们需要成对的患者,因此我们不能将一个患者与一个以上的患者进行匹配. 左外部联接会添加匹配项的每一个匹配项-将患者与其他所有可能匹配的匹配项匹配-因此我们需要其他方法. 关于SO与第一行的匹配,我们

python-是否可以编写BigQuery来检索PyPI下载随时间推移的分箱计数？

以下代码是针对Google的BigQuery的SQL查询,该查询计算最近30天内我的PyPI软件包已下载的次数. #standardSQL SELECT COUNT(*) AS num_downloads FROM `the-psf.pypi.downloads*` WHERE file.project = 'pycotools' -- Only query the last 30 days of history AND _TABLE_SUFF

python-自动创建用于流插入的BQ表

也许我弄错了：有没有一种方法可以自动为tabledata.insertAll命令创建目标表？如果是,请指出正确的方向. 如果不是-创建所需表的最佳方法是什么？在启动时检查现有表,然后通过从GCS加载创建不存在的表？还是可以不通过加载工作直接从代码中创建它们？我定义了许多事件类(Python Cloud端点),

python-在Tensorflow中使用BigQueryReader读取数据

我尝试使用Tensorflow中的BigQueryReader,但实际上并未成功读取数据.这是我的代码： import tensorflow as tf from tensorflow.contrib.cloud.python.ops.bigquery_reader_ops import BigQueryReader import time features = dict( weight_pounds=tf.FixedLenFeature([1], tf.

sql-Google BQ：运行参数化查询,其中参数变量是BQ表目标

我正在尝试从Linux命令行为BQ Table目标运行SQL.该SQL脚本将用于多个日期,客户端和BQ表目的地,因此这将需要在BQ API命令行调用中使用参数(标志–parameter).现在,我已经通过以下链接来学习有关参数化查询的信息：https://cloud.google.com/bigquery/docs/parameterized-queries,但是

PHP-Google BigQuery表补丁/更新不起作用

Google_Http_Request object { batchHeaders => array(3) ( [Content-Type] => (string) application/http [Content-Transfer-Encoding] => (string) binary [MIME-Version] => (string) 1.0 ) queryParams => array(0) requestMethod =&

如何使用python API在bigquery中创建新视图？

我有一些代码会自动生成一堆不同的SQL查询,我想将这些查询插入到bigquery中以生成视图,尽管我遇到的一个问题是,由于自然界的变化,这些视图需要每天晚上动态生成数据.所以我想做的是使用python的google bigquery api进行查看.我知道如何使用“ bq”命令行工具来执行此操作,但是我希

解析数据以使用Python创建json数据对象

这是我从google bigquery解析的数据： { u'kind': u'bigquery#queryResponse', u'rows': [ { u'f': [ { u'v': u'the' },

设置像Bigql这样的Big Query变量

什么是bigquery等同于mysql变量？ SET @fromdate = '2014-01-01 00:00:00', -- dates for after 2013 @todate='2015-01-01 00:00:00', @bfromdate = '2005-01-01 00:00:00', -- dates for before 2013 @btodate = '2005-01-01 00:00:00',

mysql – 如何在Google BigQuery中为数千个类别创建虚拟变量列？

我有一个包含2列的简单表：UserID和Category,每个UserID可以重复几个类别,如下所示： UserID Category ------ -------- 1 A 1 B 2 C 3 A 3 C 3 B 我想“dummify”这个表：即创建一个输出表,每个类别都有一个由虚拟变量组成的唯一

mysql – 如何将行转换为BigQuery / SQL中包含大量数据的列？

我在将BigQuery(15亿行)中的大量数据表从行转换为列时遇到问题.我可以弄清楚如何在硬编码时使用少量数据来完成它,但这个数量很大.表的快照如下所示： ————————– | CustomerID特征值| ————————–| 1 A123 3 || 1 F213 7 || 1 F231 8 || 1 B789 9.1 || 2 A123 4 |

python – 流式传输不工作之前的BigQuery表截断

我们使用BigQuery Python API来运行一些分析.为此,我们创建了以下适配器： def stream_data(self, table, data, schema, how=None): r = self.connector.tables().list(projectId=self._project_id, datasetId='lbanor').execute() t

android – 使用BigQuery的Firebase

我很难理解如何注册自定义事件,然后在BigQuery中可视化它们.自谷歌IO会议以来,除了那些非常基本和广泛的会议视频之外,我找不到任何有关该流程的详细信息…… 如何在Firebase事件中注册自定义数据,然后在BigQuery中查看？ Bundle bundle2 = new Bundle(); bundle2.putString

java – 如何在Web界面的“计划任务”选项卡中显示应用程序引擎cron作业？

我一直在构建一个应用程序,将谷歌分析数据从Bigquery的数据集转移到谷歌存储. 我的目的是在Google App Engine上部署一个Web应用程序,并设置一些cron作业来定期调用正确的URL,然后让一些servlet来管理这些请求. 我正在开发eclipse并使用Google提供的App Engine插件https://develope

mysql – BigQuery的最长连续日数

现在我只是总计用户工作了多少天.我正在尝试将此查询更改为大多数连续工作日. 其中u12345为4,u1为2. 这可能与BigQuery语句有关吗？编辑我是Kind of close与以下查询,但我的u1得到3而不是2. SELECT MIN(e.timestamp) as date_created, e.uid, COUNT(e.uid) + 1 AS streak FROM OnSi

java – BIGQUERY – 如何使用Pentaho Data Integration(Spoon)创建连接？

我试图通过Pentaho数据集成访问BigQuery,但我没有成功. >系统：OSX El Capitan > Google BigQuery身份验证方法：使用.p12密钥的服务帐户我已经按照本教程使用了OSXhttp://wiki.pentaho.com/display/EAI/Google+BigQuery 这就是我所做的： >我将“kettle.zip的依赖项”下载并解压缩到PDI

java – com.google.a.a.a.a.l 400错误请求{big“：”invalid_grant“}在bigquery中插入行

嗨,我正在开发一个Android应用程序,我已经集成了BigQuery.在BigQuery表中插入记录时,我遇到了很多异常.我不是这方面的专家,所以如果你们能帮助我,那就太棒了. 1.错误日志 com.google.a.a.a.a.l: 400 Bad Request { "error" : "invalid_grant" } at com.google

如何从Cassandra增加数据流读取并行性

我试图将大量数据(2 TB,30kkk行)从Cassandra导出到BigQuery.我的所有基础设施都在GCP上.我的Cassandra集群有4个节点(4个vCPU,26 GB内存,每个2000 GB PD(HDD)).集群中有一个种子节点.我需要在写入BQ之前转换我的数据,所以我使用的是Dataflow.工人类型是n1-highmem-2.工人和Cassandr

javascript – 如何从Bigquery结果中解析json响应？

我尝试使用示例javascript代码来调用Google bigQuery API(https://developers.google.com/bigquery/docs/authorization#client-side-javascript) JS： function runQuery() { var request = gapi.client.bigquery.jobs.query({ 'projectId': project_id, '

如何将json从云存储上的文件导入Bigquery

我试图通过api将文件(json.txt)从云存储导入Bigquery并抛出错误.当通过web ui完成时,它可以工作并且没有错误(我甚至设置了maxBadRecords = 0).有人可以告诉我我在这里做错了什么吗？代码是错误的,还是我需要在某个地方更改Bigquery中的某些设置？该文件是一个纯文本utf-8文件,内容如

python – 来自oauth2client.appengine import oauth2decorator_from_clientsecrets ImportError：没有名为appengi

我在尝试运行我的应用程序时遇到以下错误 from oauth2client.appengine import oauth2decorator_from_clientsecrets ImportError: No module named appengine 这是我的main.py代码 import httplib2 import os from google.appengine.ext import webapp from google.appengine.e

尝试使用Python查询Google BigQuery时出现“需要登录”错误

我想用Python从本地Linux机器上访问BigQuery数据. 来自Google帮助https://cloud.google.com/bigquery/authorization#service-accounts-server的代码可以很好地为我提供数据集列表.但是查询通过服务库发送 SELECT id, name FROM [test_articles.countries] LIMIT 100 失败并显示