拓端

首页 > TAG信息列表 > 拓端

拓端tecdat|关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

原文链接：http://tecdat.cn/?p=26341 原文出处：拓端数据部落公众号本文数据采集于豆瓣读书网站，分析内容将基于豆瓣读书的图书评分和评论信息。主题将紧紧围绕以下几点：有哪些书籍值得推荐？一般书籍的价格是多少？一本书的评分和评论数量之间是否存在某种关系？视频：R语言关联规则模

拓端tecdat荣获“2021掘金人气创作团队榜单”奖

稀土掘金开发者社区公布了2021年度人气创作者榜单。拓端tecdat与华为云、蚂蚁金服、37手游等企业一同入选“2021 掘金人气团队榜榜单”。近日互联网技术的优质内容分享社区稀土掘金，为了更好地展示社区的优质创作者、激励更多优质的技术人才参与到内容创作来，持续促进社区生态完

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

原文链接：http://tecdat.cn/?p=26158 原文出处：拓端数据部落公众号弹性网络正则化同时应用 L1 范数和 L2 范数正则化来惩罚回归模型中的系数。为了在 R 中应用弹性网络正则化。在 LASSO回归中，我们为 alpha 参数设置一个 '1' 值，并且在岭回归中，我们将 '0' 值设置为其 alpha 参数。

拓端tecdat|R语言向量自回归VAR的迭代多元预测估计 GDP 增长率时间序列

原文链接：http://tecdat.cn/?p=25761 原文出处：拓端数据部落公众号 VARs的结构也允许联合检验多个方程的限制。例如，检验滞后p的所有回归变量的系数是否为零，可能是有意义的。这相当于检验滞后阶数p-1是正确的原假设。系数估计值的大样本联合正态性很方便，因为它意味着我们可以简单

拓端tecdat|R语言ARMA GARCH COPULA模型拟合股票收益率时间序列和模拟可视化

原文链接：http://tecdat.cn/?p=25770 原文出处：拓端数据部落公众号在本文中，我们展示了 copula GARCH 方法拟合模拟数据和股票数据并进行可视化。 r还提供了一个特殊情况（具有正态或学生 t残差）。一、如何在R中对股票x和y的收益率拟合copula模型数据集为了这个例子的目的，我使用

拓端tecdat|R语言数量生态学冗余分析RDA分析植物多样性物种数据结果可视化

原文链接：http://tecdat.cn/?p=25564 原文出处：拓端数据部落公众号冗余分析（redundancy analysis，RDA）是一种回归分析结合主成分分析的排序方法，也是多因变量（multiresponse）回归分析的拓展。从概念上讲，RDA是因变量矩阵与解释变量之间多元多重线性回归的拟合值矩阵的PCA分析。本报告对

拓端tecdat|Python多项式Logistic逻辑回归进行多类别分类和交叉验证准确度箱

原文链接：http://tecdat.cn/?p=25583 原文出处：拓端数据部落公众号多项式逻辑回归是逻辑回归的扩展，它增加了对多类分类问题的支持。默认情况下，逻辑回归仅限于两类分类问题。一些扩展，可以允许将逻辑回归用于多类分类问题，尽管它们要求首先将分类问题转换为多个二元分类问题。

拓端tecdat|R语言用收缩估计股票beta系数回归分析Microsoft收益率风险

原文链接：http://tecdat.cn/?p=25610 原文出处：拓端数据部落公众号配对交易提出的问题之一是股票的贝塔值相对于市场的不稳定估计。这是一个可能的解决方案的建议，这并不是真正的解决方案。看看下图： Microsoft的滚动系数（回归：MSFT~SPY）- 120 天的窗口，纯蓝色是使用完整样本估计的 be

拓端tecdat|R语言用收缩估计股票beta系数回归分析Microsoft收益率风险

拓端tecdat|Python多项式Logistic逻辑回归进行多类别分类和交叉验证准确度箱线图可视化

原文链接：http://tecdat.cn/?p=25583 原文出处：拓端数据部落公众号多项式逻辑回归是逻辑回归的扩展，它增加了对多类分类问题的支持。默认情况下，逻辑回归仅限于两类分类问题。一些扩展，可以允许将逻辑回归用于多类分类问题，尽管它们要求首先将分类问题转换为多个二元分类问

拓端tecdat|SAS分类决策树预测贷款申请评分剪枝和结果可视化

原文链接：http://tecdat.cn/?p=25111 原文出处：拓端数据部落公众号分类树的一个常见用途是预测抵押贷款申请人是否会拖欠贷款。数据包含对 5,960 名抵押贷款申请人的观察结果。一个名为的变量 Bad 表示申请人在获得贷款批准后是还清贷款还是拖欠贷款。此示例构建一个树模型，该

拓端tecdat|R语言用RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

原文链接：http://tecdat.cn/?p=25133 原文出处：拓端数据部落公众号 2017 年年中，R 推出了 Keras 包，这是一个在 Tensorflow 之上运行的综合库，具有 CPU 和 GPU 功能。本文将演示如何在 R 中使用 LSTM 实现时间序列预测。简单的介绍时间序列涉及按时间顺序收集的数据。我用 xt

拓端tecdat|R语言结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例

原文链接：http://tecdat.cn/?p=25044 原文出处：拓端数据部落公众号 1 简介在本文，我们将考虑观察/显示所有变量的模型，以及具有潜在变量的模型。第一种有时称为“路径分析”，而后者有时称为“测量模型”。 2 进行简单的多元回归 SEM 在很大程度上是回归的多元扩展，我们可以在其中一次检

拓端tecdat|R语言实现绘制Sankey桑基图（河流图、分流图）流程数据可视化

原文链接：http://tecdat.cn/?p=24996 原文出处：拓端数据部落公众号我一直在寻找一种直观的方法来绘制流程中状态之间的流程或连接。一个明显的选择是，R软件包恰好满足了我的需求。将数据设置为正确的格式是一个比较麻烦的过程。现在，本文仅说明如何构建多级图。构造数据此示例的

拓端tecdat|R语言分类回归决策树交互式修剪和更美观地可视化分析细胞图像分割数据集

原文链接：http://tecdat.cn/?p=24956 原文出处：拓端数据部落公众号绘制分类或回归树的基本方法的 rpart() 函数只是调用 plot。然而，总的来说，结果并不漂亮。事实证明，一段时间以来，有一种更好的方法来绘制 rpart() 树。我们可以大概浏览下如何实现，并且进一步研究。 #

拓端tecdat|R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化

原文链接：http://tecdat.cn/?p=24973 原文出处：拓端数据部落公众号简介世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家，一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式，从而减少并发症。本研究旨在查明心脏病最

拓端tecdat|R语言网络社区检测（社群发现）分析女性参加社交活动和社区节点着色可视化

原文链接：http://tecdat.cn/?p=24886 原文出处：拓端数据部落公众号在网络上进行社区检测时，有时我们不仅拥有实体之间的联系。这些实体代表了我们可能也想在网络可视化中代表的现实事物。 plot(g) 我使用数据集，代表了观察到的 18 位女性参加 14 场社交活

拓端tecdat|R语言Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES

原文链接：http://tecdat.cn/?p=24753 原文出处：拓端数据部落公众号摘要在这项工作中，我通过创建一个包含四只基金的模型来探索 copula，这些基金跟踪股票、债券、美元和商品的市场指数。然后，我使用该模型生成模拟值，并使用实际收益和模拟收益来测试模型投资组合的性能，以计算风险价值(V

拓端tecdat|R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率

原文链接：http://tecdat.cn/?p=24671 原文出处：拓端数据部落公众号在本文中，我解释了基本回归，并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。我还应用 PCA 创建了一个回归模型，用于使用前几个主成分对相同的犯罪数据进行建模。最后，我对两种模型的结果进行了比较，看看

拓端tecdat|R语言非线性回归beta系数估算股票市场的风险分析亚马逊AMZN股票和构建投资组合

原文链接：http://tecdat.cn/?p=24680 原文出处：拓端数据部落公众号 Beta 假设反映了一种工具对例如市场的风险。但是，您可以通过各种方式估算此度量。你可以收缩你的估计来稳定它。另一个方面是这种风险度量的非线性。在红色和绿色的时间里，对市场的敏感性不相同。从结果中我们可以

拓端tecdat|Matlab用Copula模型进行蒙特卡洛(Monte Carlo)模拟和拟合股票收益数据分析

原文链接：http://tecdat.cn/?p=24535 原文出处：拓端数据部落公众号最近，copula 在仿真模型中变得流行起来。Copulas 是描述变量之间依赖关系的函数，并提供了一种创建分布以对相关多元数据建模的方法。使用 copula，数据分析师可以通过指定边缘单变量分布并选择特定的 copula 来提供变量

拓端tecdat|R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化

原文链接：http://tecdat.cn/?p=24973 原文出处：拓端数据部落公众号简介世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家，一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式，从而减少并发症。本研究旨在查明心脏

拓端tecdat：Python集成学习：自己编写构建AdaBoost分类模型可视化决策边界及sklearn包调用比较

原文链接：http://tecdat.cn/?p=24421 原文出处：拓端数据部落公众号 AdaBoost是？ Boosting指的是机器学习元算法系列，它将许多 "弱 "分类器的输出合并成一个强大的 "集合"，其中每个弱分类器单独的错误率可能只比随机猜测好一点。 AdaBoost这个名字代表了自适应提升，它指的是一种特殊的

拓端tecdat：R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平

原文链接：http://tecdat.cn/?p=24134 原文出处：拓端数据部落公众号测试非线性回归中的交互作用因子实验在农业中非常普遍，它们通常用于测试实验因素之间相互作用的重要性。例如，可以在两种不同的施氮水平（例如高和低）下进行基因型评估，以了解基因型的排名是否取决于养分的可用性。对

拓端tecdat|R语言分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响

原文链接 http://tecdat.cn/?p=23947 原文出处：拓端数据部落公众号摘要分布滞后非线性模型（DLNM）表示一个建模框架，可以灵活地描述在时间序列数据中显示潜在非线性和滞后影响的关联。该方法论基于交叉基的定义，交叉基是由两组基础函数的组合表示的二维函数空间，它们分别指定了预测