其他分享
首页 > 其他分享> > 关于垂直领域NLP相关检测体系的搭建

关于垂直领域NLP相关检测体系的搭建

作者:互联网

  众所周知垂直领域相对于开放域来说需要的专业知识度更高,很多垂直领域的NLP处理在前期都是基于规则的。一个明显的原因,基于规则的准确率更高,需要的数据较少,但是它的弊端依然很明显--泛化扩展能力差。所以基于大规模预训练模型检测体系应运而生。但是在垂直领域做完全专注于模型的检测真的work吗,答案往后看。
  大多数研究人员在实验室做研究,NLP数据在实验情况下可能显得相对规整和干净,但是实际生产过程中数据的繁杂,多变是超乎想象的。在这种数据下,在垂直领域的情境中,我们所要做到的检测不是90%,而是100%的准确率,所以你说直接用一个端到端的大模型检测是真的能做到吗?答案就是两条腿走路,规则与模型并行。
  那具体哪一部分用规则,哪一部分用模型,规则和模型如何结合使用呢?这里有一个前提,我们已经有了这个行业足够多的语料和知识库。
(1)线下
  规则:如果我们之前做了一部分规则的工作,并在某些样本上足够准确,在线下的场景中我们可以利用规则来进行模型数据的标注。有些场景比如分词和实体识别,利用词典和正则表达式、DAG等方法识别准确度很高,所以我们可以利用其进行NER标注。
  模型:线下刚拿到数据的时候数据处理,打标签,然后选模型,这里建议选模型的时候直接选较稳定的大模型,看一下检测准确率上限是什么,具体后续上线的时候再考虑换模型。
(2)线上
  规则:规则主要用于对模型的补充,并且规则这种可以很好的对badcase进行处理,我们利用规则建立一个快速的修复通道,这个完全是规则可以办到的,也是它的优势。
  模型:模型比较笨重,一般我们训练完成之后很少去改动它,但是这里有一个比较重要的问题就是模型的上线,一般的方式是首先上线一个baseline模型,后续根据这个数据分析和模型效果选择优化,优化到一定程度这个模型效果一直上不去,考虑上预训练大模型,这个过程需要一步步迭代。
  当前人工智能领域在垂直领域的智能化应用发展迅速,我们真的需要不断探索创新来实现真正意义上的智能,路很难,所以需要很努力。
  PS:最近有点开心,准备加快知识产出^J^

标签:NLP,检测,模型,领域,垂直,规则,搭建
来源: https://www.cnblogs.com/Leahx/p/16392871.html