您的 TFIDF 功能是垃圾。这是修复它的方法。
作者:互联网
您的 TFIDF 功能是垃圾。这是修复它的方法。
摆脱无意义的 TFIDF 功能,让您的模型通过这个简单的步骤呼吸新鲜空气。
介绍
TFIDF 仍然是我最喜欢的词嵌入技术之一,尽管 GPT-3 和其他基于变压器的模型早已风靡一时。它易于掌握,是自然语言处理和信息检索的良好起点。我仍然不时使用它来训练基线模型,因为它可以快速实施。有些问题根本不需要 SOTA。
不幸的是,回想起我在 TFIDF 特征上学习模型的时候,我不禁感到身体不适 没有正确验证或选择提取的特征 .换句话说,通过仅跟踪模型性能而不是了解底层提取的特征来天真地配置特征提取器的参数。
在这个博客中,我将向您展示 一个简单的被忽视/未充分利用的步骤来提取最有意义的特征 从您的数据集中提取并提高您的模型性能。
为什么选择特征?
文本数据可能包含大量词汇和各种可能被误认为有意义的词汇的单词。在使用 TFIDF 进行特征提取之前, 重要的是您了解清洁度 您的文本数据。通过过滤掉停用词、符号、数字和词形还原词来尽可能地清理和规范化数据是一种很好的做法。例如,在处理 Twitter 数据时,您可以删除提及和 URL,因为它们可能对做出预测没有用处。
最终,我们想要对我们的模型有意义的特征来学习和代表。最重要的是,限制功能的数量,这样我们就不会最终得到 稀疏向量和不必要的高维度 .目标是为模型学习的最佳特征腾出空间,并过滤掉以某种方式在我们的数据集中获得 TFIDF 分数的噪声。做到这一点的方法是首先 确保您了解您的文本数据, 如果需要,对其进行规范化,然后应用某种类型的 特征选择 关于提取的特征。
您可能会问的第一个问题是,为什么特征选择甚至是必要的? TFIDF 的重点不是从大量可能的特征中提取有意义的特征吗?嗯,是。但是,TFIDF 并不总是保证提取的特征会有效。换句话说 ,您的 TFIDF 矢量化器可能会提取对您尝试预测的类没有什么意义的单词和字符。 正因为如此,我们必须应用一种特征选择方法来选择 TFIDF 特征,这些特征对于预测您的目标类来说是最有用的。
CHI² 功能选择
那么什么是CHI²测试?
“皮尔逊卡方检验用于确定是否存在 具有统计学意义 预期之间的差异 频率 以及在一个或多个类别中观察到的频率 列联表 。”
[
卡方检验 - 维基百科,免费的百科全书
卡方检验(也称为卡方或 )是一种统计假设检验,当检验…
en.wikipedia.org
](https://en.wikipedia.org/wiki/Chi-squared_test)
简单来说,就是判断两个分类变量是否独立的测试。找到一个玩具示例,并使用观察到的/预期的频率手动计算 CHI² 指标是一个很好的练习,以便真正掌握指标和 CHI² 分布的含义。
在本博客中,我们将计算 CHI² 以选择依赖于我们试图预测的类的 TFIDF 术语。此方法不能保证您最终得到的术语重要性低于 5%。这将需要更严格的方法,这超出了本博客的范围。
为了演示 CHI² 的特征选择,我将使用 Twitter 美国航空公司情绪 数据来训练和测试情绪预测模型。 您可以下载训练和测试数据 这里 .
加载和清理 Twitter 数据
使用 CHI² 选择有意义的特征
为了能够比较这两种方法,我们添加了一个标志来禁用 CHI² 功能选择。
检查提取的特征(有和没有 CHI²)
让我们看看使用 CHI² 选择和不选择它们时提取的一些特征。我们可以清楚地看到提取的术语质量提高了,表达情感的更复杂的术语也增加了。
Extracted TFIDF terms with CHI² selection (left) and without (right)
训练和评估模型
多项式朴素贝叶斯模型在所选特征上进行训练。我们在下面的混淆矩阵中清楚地看到了使用和不使用 CHI² 选择我们的功能时的性能差异。
We can see the difference in performance with CHI² feature selection (left) and without (right)
你可以在下面找到完整的代码 人 笔记本 .
结论
了解模型学习进行预测的特征非常重要。在没有正确验证输入特征的情况下,您永远不应该训练模型。这显然导致了经典 垃圾进垃圾出 .
在这篇博客中,我们使用了 CHI² 不仅要 减少/限制尺寸 我们嵌入的 TFIDF 向量,但我们也 提升模型性能 通过为我们的情感分析问题提取最有意义的特征。
我在此希望有所改进 您的 对这个博客的看法和一如既往的快乐编码!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/30400/48021209
标签:提取,修复,特征,CHI,模型,TFIDF,特征选择,垃圾 来源: https://www.cnblogs.com/amboke/p/16685543.html