Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率
Google最近在GoogleColab上开源了一个名为RETVec的新型多语言文本矢量化器,这个矢量化器已经部署在Gmail上,用来提升垃圾邮件和钓鱼邮件的识别率,同时降低误报率。Google称RETVec经过训练能够抵御字符级操作,包括插入、删除、拼写错误、同形文字、LEET替换等,这个模型是在新型字符编码器之上进行训练的,该编码器可以有效针对所有UTF-8字符和单词进行编码。
为什么要训练这样一种模型呢?因为Gmail每天收发的邮件都在千万级别,如果包含各类垃圾邮件的话可能有几十亿,而垃圾邮件制造者会对Google的检测系统进行规避,例如使用同形字。
RETVec支持100多种语言,旨在帮助构建更具有弹性和高效的服务端和设备上的文本分类,同时也更加强大和高效。
根据Google自己的统计,将RETVec应用到Gmail后,垃圾邮件检测率比基准提高38%、误报率降低19.4%、张量处理单元(TPU)使用率降低了83%。
Google工程师表示由于其紧凑的表示形式,使用RETVec训练的模型表现出更快的推理速度,较小的模型可以降低计算成本并减少延迟,这对于大规模系统和设备上的模型至关重要。
矢量化是NLP即自然语言处理中的一种方法,用于将词汇中的单词或短语映射到相应的数字表达,以便执行进一步分析,例如情感分析、文本分类和命名实体识别等。
责任编辑:站长云网
踩一下[0]

站长云网
顶一下[0]