首页 > TAG信息列表 > tecdat

拓端tecdat|关联规则APRIORI挖掘豆瓣读书评论爬虫采集数据与可视化

 原文链接:http://tecdat.cn/?p=26341 原文出处:拓端数据部落公众号  本文数据采集于豆瓣读书网站,分析内容将基于豆瓣读书的图书评分和评论信息。 主题将紧紧围绕以下几点:有哪些书籍值得推荐?一般书籍的价格是多少?一本书的评分和评论数量之间是否存在某种关系? 视频:R语言关联规则模

拓端tecdat荣获“2021掘金人气创作团队榜单”奖

稀土掘金开发者社区公布了2021年度人气创作者榜单。拓端tecdat与华为云、蚂蚁金服、37手游等企业一同入选“2021 掘金人气团队榜榜单”。 近日互联网技术的优质内容分享社区稀土掘金,为了更好地展示社区的优质创作者、激励更多优质的技术人才参与到内容创作来,持续促进社区生态完

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

原文链接:http://tecdat.cn/?p=26158 原文出处:拓端数据部落公众号 弹性网络正则化同时应用 L1 范数和 L2 范数正则化来惩罚回归模型中的系数。为了在 R 中应用弹性网络正则化。在 LASSO回归中,我们为 alpha 参数设置一个 '1' 值,并且在 岭回归中,我们将 '0' 值设置为其 alpha 参数。

拓端tecdat|R语言向量自回归VAR的迭代多元预测估计 GDP 增长率时间序列

原文链接:http://tecdat.cn/?p=25761  原文出处:拓端数据部落公众号 VARs的结构也允许联合检验多个方程的限制。例如,检验滞后p的所有回归变量的系数是否为零,可能是有意义的。这相当于检验滞后阶数p-1是正确的原假设。系数估计值的大样本联合正态性很方便,因为它意味着我们可以简单

拓端tecdat|R语言ARMA GARCH COPULA模型拟合股票收益率时间序列和模拟可视化

原文链接:http://tecdat.cn/?p=25770 原文出处:拓端数据部落公众号 在本文中,我们展示了 copula GARCH 方法拟合模拟数据和股票数据并进行可视化。 r还提供了一个特殊情况(具有正态或学生 t残差)。  一、如何在R中对股票x和y的收益率拟合copula模型 数据集 为了这个例子的目的,我使用

拓端tecdat|R语言数量生态学冗余分析RDA分析植物多样性物种数据结果可视化

原文链接:http://tecdat.cn/?p=25564  原文出处:拓端数据部落公众号 冗余分析(redundancy analysis,RDA)是一种回归分析结合主成分分析的排序方法,也是多因变量(multiresponse)回归分析的拓展。从概念上讲,RDA是因变量矩阵与解释变量之间多元多重线性回归的拟合值矩阵的PCA分析。 本报告对

拓端tecdat|Python多项式Logistic逻辑回归进行多类别分类和交叉验证准确度箱

原文链接:http://tecdat.cn/?p=25583  原文出处:拓端数据部落公众号   多项式逻辑回归 是逻辑回归的扩展,它增加了对多类分类问题的支持。 默认情况下,逻辑回归仅限于两类分类问题。一些扩展,可以允许将逻辑回归用于多类分类问题,尽管它们要求首先将分类问题转换为多个二元分类问题。

拓端tecdat|R语言用收缩估计股票beta系数回归分析Microsoft收益率风险

原文链接:http://tecdat.cn/?p=25610  原文出处:拓端数据部落公众号 配对交易提出的问题之一是股票的贝塔值相对于市场的不稳定估计。这是一个可能的解决方案的建议,这并不是真正的解决方案。看看下图: Microsoft的滚动系数(回归:MSFT~SPY)- 120 天的窗口,纯蓝色是使用完整样本估计的 be

拓端tecdat|R语言用收缩估计股票beta系数回归分析Microsoft收益率风险

原文链接:http://tecdat.cn/?p=25610  原文出处:拓端数据部落公众号 配对交易提出的问题之一是股票的贝塔值相对于市场的不稳定估计。这是一个可能的解决方案的建议,这并不是真正的解决方案。 看看下图: Microsoft的滚动系数(回归:MSFT~SPY)- 120 天的窗口,纯蓝色是使用完整样本估

拓端tecdat|Python多项式Logistic逻辑回归进行多类别分类和交叉验证准确度箱线图可视化

原文链接:http://tecdat.cn/?p=25583  原文出处:拓端数据部落公众号   多项式逻辑回归 是逻辑回归的扩展,它增加了对多类分类问题的支持。 默认情况下,逻辑回归仅限于两类分类问题。一些扩展,可以允许将逻辑回归用于多类分类问题,尽管它们要求首先将分类问题转换为多个二元分类问

拓端tecdat|Python用GARCH、离散随机波动率模型DSV模拟和估计股票收益时间序列与蒙特卡洛可视化

原文链接:http://tecdat.cn/?p=25165  原文出处:拓端数据部落公众号 这篇文章介绍了一类离散随机波动率模型,并介绍了一些特殊情况,包括 GARCH 和 ARCH 模型。本文展示了如何模拟这些过程以及参数估计。本文为这些实验编写的 Python 代码在文章末尾引用。 离散随机波动率模型 是一个

拓端tecdat|R语言股票收益分布一致性检验KS检验Kolmogorov-Smirnov、置换检验Permutation Test可视化

原文链接:http://tecdat.cn/?p=25086  原文出处:拓端数据部落公众号 今年的收益是否真的与典型年份的预期不同?差异实际上与典型年份的预期不同吗?这些都是容易回答的问题。我们可以使用均值相等或方差相等的测试。但是下面这个问题呢。  今年的收益概况与一般年份的预期情况是否不

拓端tecdat|SAS分类决策树预测贷款申请评分剪枝和结果可视化

原文链接:http://tecdat.cn/?p=25111  原文出处:拓端数据部落公众号 分类树的一个常见用途是预测抵押贷款申请人是否会拖欠贷款。数据包含对 5,960 名抵押贷款申请人的观察结果。一个名为的变量 Bad 表示申请人在获得贷款批准后是还清贷款还是拖欠贷款。 此示例构建一个树模型,该

拓端tecdat|R语言用RNN循环神经网络 、LSTM长短期记忆网络实现时间序列长期利率预测

原文链接:http://tecdat.cn/?p=25133 原文出处:拓端数据部落公众号 2017 年年中,R 推出了 Keras 包 ,这是一个在 Tensorflow 之上运行的综合库,具有 CPU 和 GPU 功能。本文将演示如何在 R 中使用 LSTM 实现时间序列预测。 简单的介绍 时间序列涉及按时间顺序收集的数据。我用 xt

拓端tecdat|R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证、可视化

 原文链接:http://tecdat.cn/?p=25158 原文出处:拓端数据部落公众号  本文拟合具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。这包括组选择方法,如组lasso套索、组MCP和组SCAD,以及双级选择方法,如组指数lasso、组MCP。还提供了进行交叉验证以及拟合后可视化、总结和预测的

拓端tecdat|R语言结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例

原文链接:http://tecdat.cn/?p=25044 原文出处:拓端数据部落公众号 1 简介 在本文,我们将考虑观察/显示所有变量的模型,以及具有潜在变量的模型。第一种有时称为“路径分析”,而后者有时称为“测量模型”。 2 进行简单的多元回归 SEM 在很大程度上是回归的多元扩展,我们可以在其中一次检

拓端tecdat|R语言主成分分析PCA谱分解、奇异值分解预测分析运动员表现数据和降维可视化

原文链接:http://tecdat.cn/?p=25067  原文出处:拓端数据部落公众号 本文描述了如何 使用R执行主成分分析 ( PCA )。您将学习如何 使用 PCA预测 新的个体和变量坐标。我们还将提供 PCA 结果背后的理论。 在 R 中执行 PCA 有两种通用方法: 谱分解 ,检查变量之间的协方差/相关

拓端tecdat|R语言绘制ggplot2双色XY-面积图组合交叉折线图可视化

原文链接:http://tecdat.cn/?p=25075  原文出处:拓端数据部落公众号 本文显示如何填充 图表中两条交叉线之间的区域。 让我们尝试用ggplot2绘制这个图 . 首先,加载 ggplot2 并生成要在示例中使用的数据框(我使用的是稍微修改过的数据集,因此最终结果会与原始图有所不同)。 在 ggplot2

拓端tecdat|R语言实现绘制Sankey桑基图(河流图、分流图)流程数据可视化

原文链接:http://tecdat.cn/?p=24996  原文出处:拓端数据部落公众号 我一直在寻找一种直观的方法来绘制流程中状态之间的流程或连接。一个明显的选择是,R软件包恰好满足了我的需求。 将数据设置为正确的格式是一个比较麻烦的过程。现在,本文仅说明如何构建多级图。 构造数据 此示例的

拓端tecdat|Python高维统计建模变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

原文链接:http://tecdat.cn/?p=24940  原文出处:拓端数据部落公众号 变量选择是高维统计建模的重要组成部分。许多流行的变量选择方法,例如 LASSO,都存在偏差。带平滑削边绝对偏离(smoothly clipped absolute deviation,SCAD)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解

拓端tecdat|R语言分类回归决策树交互式修剪和更美观地可视化分析细胞图像分割数据集

原文链接:http://tecdat.cn/?p=24956  原文出处:拓端数据部落公众号 绘制分类或回归树的基本方法的 rpart() 函数只是调用 plot。然而,总的来说,结果并不漂亮。事实证明,一段时间以来,有一种更好的方法来绘制 rpart() 树。 我们可以大概浏览下如何实现,并且进一步研究。       #

拓端tecdat|R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化

原文链接:http://tecdat.cn/?p=24973  原文出处:拓端数据部落公众号 简介 世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式,从而减少并发症。本研究旨在查明心脏病最

拓端tecdat|R语言Fama French (FF) 三因子模型和CAPM多因素扩展模型分析股票市场投资组合风险/收益可视化

原文链接:http://tecdat.cn/?p=24983 原文出处:拓端数据部落公众号 本文我们超越了 CAPM 的简单线性回归,探索了 Fama French (FF) 股票风险/收益的多因素模型。 FF 模型通过回归除市场收益之外的几个变量的投资组合收益来扩展 CAPM。从一般数据科学的角度来看,FF 将 CAPM 的简单线性

拓端tecdat|R语言网络社区检测(社群发现)分析女性参加社交活动和社区节点着色可视化

原文链接:http://tecdat.cn/?p=24886  原文出处:拓端数据部落公众号 在网络上进行社区检测时,有时我们不仅拥有实体之间的联系。这些实体代表了我们可能也想在网络可视化中代表的现实事物。       plot(g)     我使用数据集,代表了观察到的 18 位女性参加 14 场社交活

拓端tecdat|Python支持向量回归SVR拟合、预测回归数据和可视化准确性检查实例

原文链接:http://tecdat.cn/?p=24875  原文出处:拓端数据部落公众号  支持向量回归(SVR)是一种回归算法,它应用支持向量机(SVM)的类似技术进行回归分析。正如我们所知,回归数据包含连续的实数。为了拟合这种类型的数据,SVR模型在考虑到模型的复杂性和错误率的情况下,用一个叫做ε管(epsilon