其他分享
首页 > 其他分享> > 人工反低俗和技术反低俗,就像警察与警犬!今日头条升级灵犬反低俗助手

人工反低俗和技术反低俗,就像警察与警犬!今日头条升级灵犬反低俗助手

作者:互联网

大数据文摘出品

作者:易琬玉


7月30日,今日头条宣布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同时支持图片和文本识别。这是时隔半年后,“灵犬”的又一次重要升级。


在文本识别领域,新版“灵犬”同时应用了“Bert”和“半监督技术”,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。


在微信小程序中即可搜索到“灵犬反低俗助手”。通过输入文本或文章链接,可以检测色情低俗、暴力谩骂以及标题党。之后,图片和视频低俗内容识别程序也将上线。


人工反低俗和技术反低俗,就像警察与警犬


信息大爆炸时代,打击低俗低质内容,是当前全球信息平台都面临的难题,然而反低俗无法单一地依靠技术或人工解决。


字节跳动人工智能实验室总监王长虎表示,“低俗的定义相对笼统,很难完全精确地定义出来,这项工作即使对人来说也不容易,交给机器做更难实现。"


例如断句不同导致的歧义:

       

一些技术难以搞定的问题,现阶段还有赖于人工判断。


比如,机器通过识别画中人物的皮肤裸露面积进行判断,这就导致反低俗算法曾将《草地上的午餐》认定为低俗色情内容。而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。



马奈油画《草地上的午餐》


还有因为使用场景、人群不同而导致标准变动的案例:内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;正常的热舞内容,提供给成年人看符合常规标准,但如果是面向青少年,这些内容就不应该出现。



曾经Facebook的反低俗算法就误删了著名反战照片《战火中的女孩》


“灵犬”小程序:反低俗系统简化版本


“灵犬”是今日头条反低俗系统的一个简化版本。据了解,2012年以来,今日头条内部搭建了反色情、反低俗、反标题党、反虚假信息、反低质等数百个模型,并投入近万人专业审核团队。


新版“灵犬”重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。后续还将支持语音识别和视频识别。


用户只需要在“灵犬”内输入一段文字或文章链接,“灵犬”就可以帮助其检测内容健康指数,返回一个鉴定结果。


“灵犬”背后的技术迭代


据王长虎介绍,“灵犬”背后的文本分类模型,已经经过了三次迭代。


第一代“灵犬”,应用的是“词向量”和“CNN(卷积神经网络)”技术,训练数据集包含350万数据样本,对随机样本的预测准确率达到79%。第二代“灵犬”,应用的是“LSTM(长短期记忆)”和“Attention”技术,训练数据集包含840万数据样本,准确率提升至85%。


新版“灵犬”同时应用了“Bert”和半监督技术,并且在此基础上使用了专门的中文语料,在不牺牲效果的情况调整了模型结构,使得计算效率能达到实用水平。“Bert”是当前最先进的自然语言处理技术,是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上,大幅提高了性能。

这一代“灵犬”训练数据集总量是1.2个T,相当于20倍百度百科或100倍维基百科的数据总量,包含920万个样本,准确率提升至91%。


不同于文本识别,图片识别的技术难点主要在于三方面:非均衡、类内方差大和不可穷举,即,低俗图片占整体图片内容的比例较低,低俗图片的种类丰富、繁杂,构成低俗图片的特征千差万别。


对此,“灵犬”运用的解决方案,是深度学习。“我们分别在数据、模型、计算力等方面做了很多优化。”王长虎说。数据层面,“灵犬”已累积上千万级别的训练数据。模型层面,“灵犬”针对许多困难样本做了模型结构调优,尝试解决多尺寸、多尺度、小目标等复杂问题。计算力层面,“灵犬”利用分布式训练算法以及GPU训练集群,加速模型的训练和调试。


当前,“灵犬”建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,持续做优化。


标签:图片,模型,灵犬,低俗,灵犬反,识别,数据,头条
来源: https://blog.csdn.net/BigDataDigest/article/details/98057045