首页 > TAG信息列表 > clf

常见机器学习方法的优缺点及适用场景:支持向量机(SVM)

支持向量机(SVM)   特点: SVM 想要的就是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。其有优美的理论保证和利用核函数对于线性不可分问题的处理技巧,使其常用于数据分类问题(回归问题也可)。   优点: 有严格的数学理论支持,可解释性强,不依靠统计方法,从而简化了通

【机器学习】支持向量机分类

前言 支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。SVM尝试寻找一个最优决策边界,使距离两个类别最近的样本最远。 SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏

机器学习—线性回归

1.概念 1.1 线性回归概念 机器学习中的两个常见的问题:回归任务和分类任务。那什么是回归任务和分类任务呢?简单的来说,在监督学习中(也就是有标签的数据中),标签值为连续值时是回归任务,标志值是离散值时是分类任务。而线性回归模型就是处理回归任务的最基础的模型。 线性:两个变量之间的

电信客户流失预测挑战赛baseline分析

1、使用了五折 kf = KFold(n_splits=folds, shuffle=True, random_state=seed) 2、lgbm的结果最好,训练速度相比于xgb和cat也比较快 train_matrix = clf.Dataset(trn_x, label=trn_y) valid_matrix = clf.Dataset(val_x, label=val_y) params = {

python数据分析-银行分控模型的建立

一、用神经网络Sequential(序贯模型)搭建 代码: import pandas as pd import numpy as np #导入划分数据集函数 from sklearn.model_selection import train_test_split #读取数据 datafile = '../data/bankloan.xls'#文件路径 data = pd.read_excel(datafile) x = data.iloc[:,:8]

sklearn调库实现决策树算法

本文不讲原理,直接调库上代码。 个人建议先用jupyter逐步操作,了解每步代码的功能,更易理解。 1.导入相关包 import numpy as np import pandas as pd from sklearn.datasets import load_wine#导入红酒数据集 from sklearn import tree#后续决策树可视化 from sklearn.tree imp

AI-机器学习-自学笔记(七)支持向量机(SVG)算法

支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane) 在二维空间上,两类点被一条直线完全分开叫做线性可分。从

决策树分类及示例

本文介绍机器学习中最基础最简单的决策树分类 参考: https://zhuanlan.zhihu.com/p/133838427 https://zhuanlan.zhihu.com/p/30059442 https://www.kaggle.com/prashant111/decision-tree-classifier-tutorial/notebook 一. 理论 1.决策树的介绍 决策树算法是最流行的机器学习算

SVM基本概念及Python实现代码

SVM(support vector machine)支持向量机: 注意:本文不准备提到数学证明的过程,一是因为有一篇非常好的文章解释的非常好:支持向量机通俗导论(理解SVM的三层境界) ,另一方面是因为我只是个程序员,不是搞数学的(主要是因为数学不好。),主要目的是将SVM以最通俗易懂,简单粗暴的方式解释清楚。 线

SVM支持向量机实现一个线性分类

        支持向量机在进行决策的时候,所选取的决策边界需要满足一个条件,也就是距离两个分类中最近点的距离是最长的。也可以理解为我们用支持向量机进行分类的时候,要做的就是将能够区分不同类别的数据的决策边界距离最近的点的距离最大化         这么说可能比较

逼真,特别逼真的决策树可视化

同学们好,决策树的可视化,我以为之前介绍的方法已经够惊艳了(决策树可视化,被惊艳到了!),没想到最近又发现了一个更惊艳的,而且更逼真,话不多说,先看效果图↓ 直接绘制随机森林也不在话下 下面就向大家介绍一下这个神器 —— pybaobabdt的极简入门用法 安装GraphViz pybaobabdt依赖Graph

机器学习——集成学习

一、介绍 集成学习: 三个臭皮匠顶个诸葛亮。相当于是多个相同或者不同的模型使用相同或者不同的训练集进行“并行或递进”式的进行模型集成,达到“1+1>2”的效果。 多模型投票: n个分类器进行结果预测,预测的结果少数服从多数然后输出最后结果。bagging: 对于每个分类器使用的训练

决策树原理整理

一、决策树的基本思想 决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。 决策树算法的核心是要解决两个问题: 1)如何从数据表中找出最佳节点和最佳分枝? 2)如何让决策树

Python异常检测工具箱——pyod

最近打算入坑异常检测,准备先从应用开始,先尝试着用一下相关的工具和算法,有一个直观的感受,然后再从应用的过程中寻找切入点,逐步了解相关的理论和模型。pyod就是一个非常符合我当下需求的一个工具箱,其中集成了从经典模型到新兴算法的数十种异常检测算法与模型,因此在这里先对他进

人工智能-AlphaBata剪枝算法

AlphaBata剪枝算法 人工智能试图理解和建立智能实体,智能实体之间存在着一种对立关系,从而有了对抗搜索问题,通常被称之为博弈。 人工智能中的博弈通常指博弈论专家们称为拥有完整信息的,确定性的,轮流行动的,两个游戏者的零和游戏 本次我们基于MinMax算法,使用AlphaBata剪枝技巧来

二分类器、混淆矩阵、精度、召回率、ROC曲线、PR曲线、多类分类器,误差分析

手写数字识别,机器学习“分类”学习笔记—来自Geron的《机器学习实战》 图片识别领域的“hello word” 文章目录 MNIST训练二元分类器性能测量使用交叉验证测量准确率混淆矩阵精度和召回率精度/召回率权衡ROC曲线 多类分类器误差分析 MNIST 获取MNIST代码,70000张手写数字

sklearn实现决策树

导入包 from sklearn.datasets import load_iris, load_wine from sklearn import tree from sklearn,model_selection import train_test_split from sklearn.metrics import accuracy_score import pandas as pd import numpy as np import matplotlib.pyplot as plt 导入红酒

异常检测算法:LOF算法(Local Outlier Factor)的python代码实现

LOF算法算法介绍Local Outlier Factor(LOF)是基于密度的经典算法,也十分适用于anomaly detection的工作。 基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度,其主要思想是:针对给定的数据集,对其中的任意一个数据点,如果在其局部邻域内的点都很密集,那么认为此数据点

Iris_data_analysis

SVM调用实例——鸢尾花 任务描述: 构建一个模型,根据鸢尾花的花萼和花瓣大小将其分为三种不同的品种。 数据集: 每一行数据由4个特征值及1个目标值组成,4个特征值分别为:萼片长度、萼片宽度、花瓣长度、花瓣宽度,目标值为三种不同类别的鸢尾花。 代码实现: #! /usr/bin/env pytho

数据挖掘训练营模型融合学习笔记

本学习笔记为阿里云天池龙珠计划数据挖掘训练营的学习内容,学习链接为: -天池实验室-实时在线的数据分析协作工具,享受免费计算资源 一、学习知识点概要 对于多种调参完成的模型进行模型融合。 完成对于多种模型的融合,提交融合结果 二、学习内容 Stacking介绍:     Stacking本

机器学习应用开发的典型步骤

目录 1.数据采集和标记 2.特征选择 3.数据清洗 4.模型选择 5.模型训练 6.模型测试 7.模型保存与加载 8.实例(手写数字识别) 1.数据采集和标记 2.特征选择 3.模型训练 4.模型测试 5.模型保存与加载 6.上述sk-learn模型以及模型参数 1.数据采集和标记 先采集数据,再将数据进行标记

使用sklearn对比各种机器学习方法:SVM,XGBoost...

sklearn常用机器学习算法总结(附python代码) - 简书 (jianshu.com)https://www.jianshu.com/p/641707e4e72c  注意:在使用XGBoost算法的时候,需要将X_train,y_train等Tensor类型变量数据类型置为nd array类型,而其他算法可以直接使用Tensor数据类型,即: features = features.numpy() l

决策树(1. 回归树)

文章目录 前言一、重要参数1.1 criterion建立一棵树的步骤 1.2 random_state & splitter1.2.1 建立树的第五步(建立模型)添加参数 1.3 剪枝参数1.3.1 查看对训练集的拟合效果如何1.3.2 max_depth1.3.3 min_samples_leaf & min_samples_split1.3.4 建立树的第五步(建立模型)添加

【机器学习实战】 集成学习和随机森林

投票分类器 假设已经训练好了一些分类器, 每个分类器准确率约为80%。 这时, 要创建一个更好的分类器, 最简单的办法是聚合每个分类器的预测, 然后将得票数最多的结果作为预测类别。 这种大多数投票分类器被称为硬投票分类器。 如下用Scikit-Learn创建并训练一个投票分类器, 由三种不同

【机器学习实战】 支持向量机

线性SVM分类 SVM分类器在类之间拟合可能的最宽街道软间隔分类,超参数C越小,越容易欠拟合,间隔违例情况越多, 但泛化效果可能更好;C越大, 越容易过拟合, 间隔违例情况越少, 泛化效果更差。 # detect virginica iris import numpy as np from sklearn import datasets from sklearn.pipelin