Google Cloud 专业数据工程师经验分享
作者:互联网
写在前面:
考试结束后,趁还记着的时候我赶紧记录下来。因为这些是没有顺序的,我只是根据自己遇到的问题总结一下考点。我记录考点的目的不是为您提供问题,而是为您提供您可以备考的重点。 我经常被一些问题困扰; 希望你可以根据我的经验做好准备。 祝你一切顺利!
因为我以前有参加过其他认证考试的经验,我觉得数据工程师认证整体相对简单。在考试结束后我又回顾了一下所有的问题,方便后期提醒我覆盖的知识点,我觉得知识点几乎都覆盖了,没有一个是直接可以给出答案的,所有问题都是基于一个场景或者一个案例。
- BigQuery Data Transfer Service. 涉及到储存传输服务和BigQuery Connectors
https://cloud.google.com/bigquery/transfer/ - IAM + Dataflow. Dataflow 开发模式和允许开发人员在没有数据访问权限的情况下使用管道的IAM权限设置
- https://cloud.google.com/dataflow/docs/concepts/access-control
- IAM + BigQuery. 这里有好几个问题, Bigquery相关的最多。至少 2 or 3 与访问权限有关tables/datasets. 记住:你不能基于tables分配权限,只能基于datasets.
https://cloud.google.com/bigquery/docs/access-control - BigQuery: partitioning tables. 基于它们分区的内容 - 摄取时间,时间戳,日期。 他们是如何命名的? 然后如何在查询中访问它们? 使用_PARTITIONTIME
https://cloud.google.com/bigquery/docs/partitioned-tables - BigQuery. 名称中通配符的语法
https://cloud.google.com/bigquery/docs/querying-wildcard-tables - BigQuery: bq的表日期范围。 使用TABLE_DATE_RANGE,_TABLE_SUFFIX,TABLE_QUERY等函数访问包含日期和分区表的表
https://stackoverflow.com/questions/22641894/bigquery-wildcard-using-table-date-range - Cloud Spanner: 第二索引、如何创建索引和第二索引
https://cloud.google.com/spanner/docs/secondary-indexes - Datastore: 索引
https://cloud.google.com/datastore/docs/concepts/indexes - BigTable: row key 结构. ? 推荐创建row_key的方式?如何避免hotspotting? 如何时候使用时间戳以及哪里使用
https://cloud.google.com/bigtable/docs/schema-design - BigTable: 优化方法.
https://cloud.google.com/bigtable/docs/performance - PubSub, Dataflow, Dataproc —这些产品的特性和用途。 没有直接的问题,但适用于一个场景。 Coursera,Linux Academy和Cloud Academy的课程涵盖了这些课程
- Dataproc: 使用gcs而不是现有的文件系统。 最佳做法是使用Google云端存储而不是使用HDFS, 您可以在数据处理后销毁计算节点并节省成本 .
- BigQuery+DataStudio — 缓存/预取缓存。 了解如何将DataStudio连接到存储解决方案。 了解默认缓存(无法禁用)和预取缓存(可以禁用)之间的区别。 使用Viewer凭据和所有者凭据执行此操作有何不同。
https://support.google.com/datastudio/answer/7020039?hl=en - Dataprep: jobs. Dataprep作业是如何创建和运行的? 你需要什么权限? 我看到的一个术语是,这是一种更“随意”的数据清理方式。 我想,Dataproc / Dataflow会更具程序性,因此“强烈”。
https://cloud.google.com/dataprep/docs/html/Jobs-Page_57344842 - DataStudio: visualisation. 旧数据产生的原因是什么? 你怎么得到最新的? 您需要设置哪些缓存选项?
- Machine Learning : feature crosses. 无法提供更多信息,或者我会透露这个问题。 了解这些是什么以及它解决了什么问题。
https://developers.google.com/machine-learning/crash-course/feature-crosses/video-lecture - Machine Learning. 还有一个关于特征交叉和计算特征的问题。 这是关于ML的Coursera材料的直接提升.
https://www.coursera.org/learn/serverless-machine-learning-gcp/home/welcome - Machine Learning: 处理过拟合.
https://developers.google.com/machine-learning/crash-course/generalization/peril-of-overfitting - Machine Learning: 正则化. 困扰我的一个选择是“增加正规化”。 增加或减少正规化意味着什么? 增加或减少数值或增加或减少要正则化的参数数量? 您可能想知道这意味着什么。 我个人认为这是令人困惑的措辞,我随机选择了两个选项.
https://www.coursera.org/lecture/deep-neural-network/why-regularization-reduces-overfitting-T6OJj - Dataproc: 如何控制缩放? 配置自动扩展? 我可能没有正确地解释这个问题,但我对这个选项感到困惑。 当我们设置自动缩放时,我们应该设置或不设置工人数量或最大工人数量? (或者它是节点?)我完全不知道这个答案。
https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/autoscaling - Avro file format. 这在选项和问题中多次出现。 查看它是什么,并知道它是一种压缩格式。 此外,bigquery / dataflow可以直接使用它。.
https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-avro - 我注意到至少有两个问题,其中选项对于不完整性是错误的。 例如。 这里有3个需要满足的要求。 这是一个只满足其中两个但是按照gcp建议进行的选项。 这是另一个涵盖所有三个要求的选项,但在方法中显然是错误的。 我一遍又一遍地阅读这些问题,寻找明确的线索,选择哪个选项,但我什么都没看到。 如果你遇到这种情况,老实说我没有任何建议.
- 有一个问题我必须从非GCP产品列表中进行选择。 例如。 Redis,Cassandra,Hbase with Hive,MySQL等。所以这需要了解其他技术及其存储/查询格式。 看起来只是心烦意乱的GCP不会削减它.
- 密钥管理服务。 这个问题是关于将KMS与非GCP产品一起使用。 请注意,有一个默认密钥管理,Google管理所有密钥,然后是客户管理的加密密钥,还有客户提供的加密密钥.
https://cloud.google.com/kms/docs/ - BigQuery query plan. BigQuery允许您查看运行的查询的查询计划和执行配置文件。 了解阶段,平均时间和最长时间之间的差异,为什么计划可能存在偏差,以及如何优化计划.
https://cloud.google.com/bigquery/query-plan-explanation - BigQuery + GCS. 知道如何将GCS和BigQuery之间的表链接为永久表和临时表。
https://cloud.google.com/bigquery/external-data-cloud-storage - 大约8个问题来自案例研究,FlowLogistics和MJTelco。 你没有心理,但要好好研究它们。 通过自己解决方案。 Linux Academy课程有一个模块可以用于案例研究.
- Bigquery. 知道联合表是什么。 在您熟悉它的同时,还要了解群集表.
https://cloud.google.com/bigquery/external-data-sources
标签:google,工程师,docs,BigQuery,Google,cloud,https,com,Cloud 来源: https://blog.csdn.net/sxb0841901116/article/details/88234210