搭建内容管理系统CMS（2）：内容过滤如何借助他方之力？_pbootcms教程

上一篇文章，分享了内容管理系统CMS在内容生产环节的产品思考与设计。今天来和大家聊聊内容管理系统CMS中，关于内容过滤的思考与总结。

内容的过滤遵守国家法律法规、使平台免受违规内容的影响，很好地规避平台运营风险；维护内容社区健康，使用户免受垃圾内容的困扰，最大地保障用户消费体验。

这些都需要建立在对内容进行有效过滤的基础上。而过滤的工作量是巨大的，尤其当用户量和内容社区的氛围都做起来之后，就更是难以想象的。纯靠人工来完成是不可行、不准确和效率极低的，必须采用机器和系统检测，而机器学习和系统搭建是需要时间周期的，实现难度也是很大很大的。

一个内容社区可能同时会有好几个不同类型的内容，比如：文本、图片、视频、音频等。内容的类型不同，过滤所使用的技术手段也是不同。

如果所处的是一个创业团队，所做的是一个试验性产品，那在搭建CMS系统的过程中，同步来搭建这个内容过滤系统是不可能的，也是不明智的。

现在市场上，针对各种各样类型的内容，都已经有很多成熟的saas平台，提供优质的内容过滤服务，而且部署对接起来也很是方便。

有一些大的平台，因为业务的成熟度和数据的安全性，以及资源和技术的实力，自研了内容过滤系统，现在很多也投入商用了，比如：腾讯、阿里、百度、网易。

1.1 选择saas服务的参考点Sue因为工作和学习的原因，调研过一些内容过滤的saas平台，对于如何选择有自己一点不成熟的总结，可以跟大家分享一下：

根据主要的内容类型来做选择，大平台不一定一好百好；结合产品阶段、用户量级，对比分析服务的计费方式；在满足需求的情况下，充分考虑性价比；别在一棵树上吊死，不同阶段和量级，切换的不只是不同套餐，完全可以考虑换一家合作（可能更划算）。

1.2 saas服务的对接如果接入第三方服务，利用第三方的技术方案完成内容过滤，那就只需要根据第三方返回的过滤结果，对内容进行不同的处理即可。

通常，第三方的过滤系统会返回以下几个信息：

1）判断依据

违规的文本段落、图片、音频和视频片段；这是人工质检系统准确性、也是和内容发布者反馈违规内容的凭据。2）风险描述

针对违规内容的类型描述，比如：

文本：广告文本、涉黄文本、暴恐文本、涉政文本、辱骂文本、灌水文本等等；图片：涉黄图片、涉政图片、暴恐图片、违禁图片、广告图片等等；音频（直播/点播）：涉黄语音、违规语音、推广语音等等；视频（直播/点播）：涉黄视频、涉政视频、暴恐视频、违禁视频、广告视频等等。3）过滤结果

内容过滤的判断结果和内容违规的等级鉴定，一般分为三类：安全、可疑、危险。

而我们需要做的就是，依据过滤结果来处理内容，也就是定义内容发布是否生效、内容的显示状态是前端展示还是屏蔽不展示等等。

发布的内容对于生产者来说，属于他在平台上的信息财富。我们需要给予充分的尊重，一旦我们要对其发布的内容进行删除/屏蔽等处理，那我们就需要负责任地通知到生产者，清楚告知原因，和提供对方沟通联系的方式，甚至提供申诉通道。

出于对内容生产者（尤其用户）的积极性保护，我们需要对过滤系统的准确性有较高的要求。而这种内容过滤的saas服务，面向的用户是各行各业、各种各样的产品，往往可能存在针对性不高、或者标准过严的情况，所以在刚完成接入后的一段时间内，需要投入一部分精力来帮这个系统和我们产品的磨合。

可以分为两个阶段来处理：

处于磨合阶段时：

Sue的建议方案是：根据过滤系统反馈的过滤结果“安全、危险、可疑”，分别对内容的；

状态进行如下调整：安全——展示内容、危险——屏蔽内容，而“可疑”的内容在磨合阶段。

可以有两种处理方式的：

判断可疑——屏蔽内容（通知用户）——人工检查——确认过严——恢复内容判断可疑——人工检查——确认过松——屏蔽内容（通知用户）Sue认为应该选择第（2）方式的，由人工完成二次确认的审核，不应该直接根据过滤结果就做出屏蔽内容的处理。这种做法，既不会传递产品过滤内容不严谨的问题，也不会因为判断不准确而给用户造成烦扰，还能加快系统和产品的磨合。唯一的缺点，就是需要耗费部分人力，但Sue认为在这个时间周期内是值得的。

Sue之前所在的一个内容社区项目中，就有接入一家内容过滤的saas服务，主要过滤的内容类型是文本。而我们的内容社区中，用户讨论的话题可谓是上天下地、纵横古今呀。

从Sue在后台的截图也可以看出来，用户讨论“电影、密码”，就被判断为“危险”了，如果按我们定义的处理方式：“危险——屏蔽内容”，那用户就会被深深”伤害“到了，感觉言论不自由，聊聊电影都被限制。类似的，还有我们的用户在文学板块聊”鲁迅”或“周树人”也曾被限制过。

不能让我们珍贵的用户，成为我们的调试过滤系统准确性的牺牲品呀，如果真要拿用户当“小白鼠”，那麻烦偷着偷着来，别把小白鼠吓跑了（哈哈哈）。

在磨合阶段将“危险内容”默认处理为屏蔽，是要建立在早期对所要接入saas服务的充分调研上，也是为了让有限的人力更多更好地集中关注“可疑内容”，但不代表可以完全放心（哈哈哈，还是刚刚“电影”的那个例子）

所以在磨合阶段，过滤的标准可以相对严格一点。对“可疑内容”，做人工审核；对“危险内容”，做人工质检。期间要保持和saas平台相关人员的沟通联系，针对性调整适合自己产品的内容过滤标准。

度过磨合阶段后：

通常，saas平台会对他们的过滤系统有一套关于准确性的评估分析标准。我们参考评估分析的结果，也可以自己定义一个基本的评估标准，比如在磨合阶段中，机器判断“可疑”而人工审核“危险”的比例已经优化到60%（数值是假设的），机器判断“危险”的质检准确性也是符合我们期望的了，那就可以算是顺利地过渡完磨合阶段了。

在这之后，我们可以把“可疑内容”的处理方案调整为和“危险内容”一样，也是默认屏蔽，进一步释放所投入的人力，之后保持对“可疑内容”和“危险内容”的人工质检即可。

1.3 容易忽略的中间状态这里需要考虑一个问题，第三方服务的响应虽说都是毫秒级别的。但真正在投入使用后，你会发现除了反馈内容过滤的结果和状态外，还会有一个“待过滤”/“待处理”的状态。

这属于中间状态，往往可能会忽略或不重视中间状态下对内容的处理，随时会带来前端用户使用上的不明确和不好的体验感受。

Sue总结了一下，前端后台针对这种情况，可以有三种处理方式：

1）假象成功

过滤系统没有返回一个明确的过滤结果（明确安全/明确危险）时，为不影响用户的体验和保护用户创作积极性，都会制造一个发布成功的假象。

这个假象的现象是：用户在前端成功提交发布后，默认进入内容广场页面（如朋友圈），同时在列表第一条可以看到自己刚刚发布的内容。但这时候内容可能处于待审核或可疑待人工二次确认审核的状态中，其他人是暂时看不到这条内容的，而发布者是毫无察觉的，他以为其他人和他一样也能在广场（朋友圈）看到。

这种方式，把过滤系统对发布者的影响控制在最小的程度。如果不是内容被过滤系统判定为有问题，平台对内容进行屏蔽处理时通知发布者，他们可能都不知道原来内容还会被过滤审核。有的平台在“和谐”掉内容时并不会通知发布者，那就更难感知到了。

采取该方案的产品：微信。

2）等待结果

这种方式和第一种方式的页面流程比较相似，同样是在用户成功提交后，将用户带到内容广场页，但也会在页面内提示发布的进度情况（进度条的形式“soul”）或在内容下方提示“审核中”（文字提示的形式“探探”）。相同的是，中间状态的内容对他人都暂时不展示；不同的是，有没有让发布者感知到过滤系统的存在。

这种方式，发布者会明确地知道内容在提交后都需要被审核的，也会自觉地在编辑时就尽可能规范自己的言论。

采取该方案的产品：探探。

3）过滤后置

第三种方式，就是中间状态的内容等同于暂时安全的内容，默认对所有人都是直接先展示出来的，内容过滤是后置的，过滤结果出来了，该怎么处理就怎么处理。

这种方式是最大程度地保障了发布者的体验了，但对消费内容的用户体验可能会造成一些影响，也可能对平台运营带来一定的风险。

在体验了很多产品的内容发布流程后，会发现绝大多数产品好像都是采用了这种方式。（可能就真的是因为内容过滤的响应速度足够快）

采取该方案的产品：绿洲。

1.4 黑白名单管理第三方的过滤系统，一般会支持以下几个名单/库的管理：

用户名单IP名单设备名单URL名单联系方式库主要的意义是：降低特定对象（用户、IP、设备）或特殊内容（URL、联系方式）的误杀。

例如：

内容运营的账号可能会有短时间大量发布内容的动作，如果没有这些名单管理，则可能会被判定为短时间大量发贴的灌水行为（对设备/IP的情况也是类似的）。发布的内容可能会附带上有运营推广宣传的URL，或让用户联系客服、工作人员而留的联系方式，如果没有这些名单管理，则可能被判定为广告内容和广告用户。另外，我们可以在第三方过滤系统之外，建立自己的黑名单管理，将有问题的用户、IP、设备、URL和联系方式进行标记。

用户发布的内容，若被检测出属于符合黑名单中的标记，则无需再推送到第三方过滤系统进行判断，直接则可进行处理。

主要的意义是：减免特定对象（用户、IP、设备）和内容（URL、联系方式）的重复过滤，减少不必要的过滤成本。