鉴黄师拍了拍你:“你喜欢的小电影,我每天要看上万部”

来源:安全联盟 阅读量:2847 发布时间:2020-08-06 18:46:26 我要分享

微博上有个长期热门话题,是#不考虑薪水最想从事的工作#

大熊猫饲养员、去故宫修文物、考古学家、网红旅行博主、开一家书店……在五花八门的高人气职业中,有那么一种职业显得尤为与众不同。它就是大名鼎鼎的“职业鉴黄师”。

一直以来,“鉴黄师”都是各种段子里活跃的内容。这份工作的“优点”也被人们吹得天花乱坠:什么“工资高福利好”、“每天工作八小时”、“上班就是看看片”......

但真正的“鉴黄师”到底是怎么工作的,每天看片他们的身体还好吗?今天,我们就一起走进知道创宇最神秘的部门之一——业务安全产品线,了解一下“鉴黄师”的工(看)作(片)日常。

 

相比于鉴黄师,更愿意被称为过滤器

“我是以算法研发工程师的身份进入公司的,在进入公司之前,没有人告诉我还有这个‘福利’,所以,你懂的。”一直与代码打交道的碧风,从未想过自己会成为一名靠技术吃饭的“鉴黄师”。

作为知道创宇内容安全审核智能识别引擎的负责人,他认为“鉴黄师“的称谓只是网络上的一个段子,“毕竟鉴黄只是我们内容审核的一部分内容,除了色情识别,还包括涉政暴恐、诈骗毒品、恶意推广等多重内容的审核。”

““相比于鉴黄师,我们更愿意把自己比喻为过滤器,肮脏污秽的东西我们自己扛下,留给互联网一片美好。”知道创宇内容安全部经理逍遥子,对“鉴黄师”的称谓,同样不太认可。

这个平常喜欢看直播的年轻人,发现风口上的直播行业充斥着很多违规直播。

工作中的逍遥子

高薪+上班看直播,带着这样的美好憧憬,在“打败了好几十位竞争对手”后,逍遥子成为了净网业务部人工审核团队中的一员。但入职培训很快就让这个新人,认识到工作的不容易。

“与我们一起培训的还有不少女生,那段时间内心感觉总是怪怪的,尤其是课堂讨论的时候,要和一群女生讨论色情识别的相关策略,难免会说到一些比较敏感的词汇。我真的好久没在女生面前脸红了,结果那几天真挺尴尬的。”

每日阅片上万:深夜时分的斗智斗勇

事实上,入职培训只是开始,真正的战斗才刚刚打响。

“真正开始工作后,就没有人再扭扭捏捏了,因为内容安全审核要的就是效率,我们必须在最短的时间内把违法信息挑出来。”逍遥子表示。

截至目前,400人的内容审核团队,每日审核的内容总数超300万条,知道创宇智能识别引擎已实现毫秒级响应,人工审核已实现5分钟内响应。这样的工作效率,是建立在智能识别与人工审核的高效配合上的。

以大家关心的阅片数为例,每一位人工审核每天需要鉴别的“小电影”,就有上万部之多。

而这些与不法分子的战斗,大多在是夜深人静时进行的。

“一般一天之内,我们部门最繁忙的就是晚班同事了,原因我相信大家也能猜到,月黑风高,漫漫长夜,总会有人寂寞难耐。所以一般到了晚上11点过后,我们的同事就要打起12分的精神,到凌晨3点前,基本没有休息的时间,需要全神贯注的满负荷工作。”逍遥子透露。

这样的“高强度战斗”,更是一场斗智斗勇的较量。为了骗过审核,不法分子也在不断升级自己的隐藏技能,而逍遥子及其团队的任务,就是将这些骗局一一识破。

“我们之前就遇到过一个极狡猾的博主。为了躲避审核,这位博主把一些色情图片放在几十页的PPT里,然后把图片调到较小的尺寸。而PPT的命名也很讲究,全部命名为十分正规的并带有专业名词的名字,这给我们的审核制造了非常大的困难,好在当时几位同事一起审核,最终发现了这个问题。”

相比于色情内容这些“福利”,血腥、暴恐类违法内容,更让“鉴黄师”身心损耗巨大。

“我们数据小组曾做过一个测试,找了一些让人‘身心不适’的图片,看看每人能坚持看多少张,我看了3张就坚持不下去了,现在回想起来都有一种毛骨悚然的感觉。如果审核员心理承受力弱的话,看1张图片可能就会浑身不适,甚至有想吐的感觉。”碧风透露。

与不法分子的战斗如此残酷,为何要坚持做一名鉴黄师呢?

面对这个问题,逍遥子回忆起了两个月看到的一则新闻,“一位母亲,发现自己未成年的孩子手机中存储着大量淫秽色情视频,却不知道怎么办,惊慌失措的她居然在记者的镜头前哭了起来,那一刻,我更加坚定了坚持下去的念头。”

AI鉴黄:“修我模型,与子同仇”

工欲善其事,必先利其器。与不法分子的这场战斗,智能识别引擎,就是知道创宇内容审核团队最有效的武器。

“我们的智能识别引擎,是采用Seq2Seq的深度学习模型,将人工判断的标准通过模型参数的形式,让人工智能将这些标准学习下来,并通过匹配我们内容审核业务积累的关键词,实现智能识别。”碧风介绍说。

而为了让人工智能更快的完成学习,碧风团队,每天都会有人标注违法信息的数据,而这些标注完成的数据就是高质量的样本,将这些训练样本送给AI模型学习训练,即可不断提升人工智能识别违法信息的能力。

智能识别引擎工作原理

“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。也正是因为我们有持续的业务驱动,所以我们积累的大量的训练样本,也在不断的提升机器学习的上限。”碧风表示。

AI的加持,有效提升了内容审核的效率,智能识别引擎+人工审核的双保险,更是确保了内容审核的正确率。截至目前,知道创宇内容安全审核智能识别引擎正确率高于90%,人工审核正确率高于99.5%。

“当然,随着各类新型技术的出现,不法分子也变得越来越聪明,而我们的任务,就是‘修我模型,与子同仇’,通过与人工审核的紧密合作,不断升级我们的智能识别引擎,与不法信息持续战斗。”碧风斩钉截铁地表示!

分享到:
热点资讯