文章開始之前,給大家兩條建議:
“ 兒童送養 ”這個話題在大多平臺都是極為罕見的,但知乎最近就因此爆發了壹場危及平臺聲譽的危機。
內容審核就是這樣壹種職業,違法違規信息覆蓋範圍極廣,新的違規信息層出不窮。無論妳多麽有經驗、無論審核系統多麽先進,只要發生問題,看起來都是很基礎甚至很愚蠢的問題。
知乎這樣壹個有很強的技術實力和內容審核經驗的平臺,也會在這個問題上摔跟頭,並且可以預料的是,不知道在多久的以後,知乎壹定還會發生壹次又壹次因為存在違規內容帶來的危機事件,這事情無可避免。有人說,對於內容審核人員來說這是從入門到被門檻絆倒,壹點都不誇張。
讀完這篇文章,妳可以詳細了解 文字類內容審核的邏輯 ,還會了解壹些 圖片和短視頻審核的技術 ,足以補充壹個運營或產品在這方面的知識儲備了。
在不同公司,對審核類職位的劃分標準不同,比如有 內容安全審核、內容推薦審核、內容質量審核 等類似職位。雖然在側重點和具體操作上有所不同,但有許多邏輯都是***通的。為了避免文章過於復雜,我們在這裏側重最常見的 內容安全審核 。
不管是什麽內容的審核,都應該包含以下 四個基礎模塊 :機器審核、人工審核、用戶投訴審核、結果復審。
機器審核 ,是按照制定好的規則或機器學習算法對內容進行審核,通常,成熟的審核系統能將95%甚至99%以上的內容都自動審核並做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標註,進入人工審核程序。
人工審核 ,雖然用戶投訴審核和結果復審大多時候也是人工審核,但這裏所說的人工審核,特指審核機器無法判別的內容,通常占平臺內容數量的比例不超過5%,但對於壹些大型的內容平臺,絕對數量已經很多了。在內容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數量都成千甚至上萬。
用戶投訴審核 ,是前兩者的彌補,有很多違規內容以前沒有出現過,所以不在規則可以過濾的範圍內,或者非常隱蔽,規則難以嚴格過濾。用戶的投訴是發現新問題的重要渠道。通過知乎的危機事件,我們更應該重視對投訴的審核,並及時據此對機器審核做出補充。
結果復審 ,通常采取抽查方式,比如通過復審機器刪除的內容,看規則或算法是否過於嚴格;比如通過查看人工刪除和通過的內容,看員工的工作是否按要求執行;比如通過內容的整體巡查,看是否存在新的問題未被註意到。
在文字類內容平臺,比如知乎、、豆瓣以及各類論壇網站,機器審核主要是基於關鍵詞過濾的邏輯,邏輯比較簡單,但也沒有想象的那麽簡單。
壹篇文章發布到平臺後,需要至少經歷以下環節:
詞語過濾的環節,關鍵詞主要分為三類:
禁止關鍵詞 ,只要匹配到這個詞,內容就被自動刪除或禁止提交。通常只有極少數詞會被納入禁止關鍵詞,比如明確的色情、邪教以及廣告的專屬關鍵詞。
審核關鍵詞 ,這是最常見的關鍵詞種類,只要匹配到就會自動進入後臺進行審核,文章中的關鍵詞會被高亮並羅列出來,有助於審核人員快速判斷。審核關鍵詞也應該盡量是專屬關鍵詞,以防止太多內容被攔截到後臺。
替換關鍵詞 ,在許多平臺,我們會在文中看到莫名的 號 或 字母縮寫 *,這可能不是文章作者寫的,而是這個詞被系統自動替換。平臺不希望出現這個關鍵詞,但用別的代替讀者通常也能讀懂。比如壹些政治、宗教、不文明用語類詞語,都有可能被自動替換。
當然,管理員在添加關鍵詞時,很多時候並不是直接把關鍵詞添加到後臺。否則用戶用很簡單的方式就可以避過關鍵詞過濾,比如在關鍵詞內加壹個空格,系統就難以匹配到。
所以,壹般後臺都會支持 限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節數。在Discuz!網站後臺有明確說明,如 "a{1}s{2}s"(不含引號) 可以過濾 " ass" 也可過濾 " axsxs " 和 " axsxxs " 等等。對於中文字符,若使用 GBK、Big-5 版本,每個中文字符相當於 2 個字節;若使用 UTF-8 版本,每個中文字符相當於 3 個字節。
另外,關鍵詞還可以支持 正則表達式 ,來匹配具有壹定模式的關鍵詞,比如" /1\d{10}([^\d]+|$)/ "(不包括引號)用來匹配手機號碼。正則表達式的內容過多,大家有興趣可以搜索學習壹下。
以上講述的,主要是文字類內容的審核和規則,邏輯簡單,但應用最為廣泛。近年隨著短視頻類產品的興起,內容審核的邏輯需要更加深層的技術支持。
技術上的東西,對大多人來說如同天書,而且也沒有必要深入了解。我們挑選幾個容易理解的點,來窺探幾分內容審核背後的技術。
OCR(文本識別技術) ,主要用來識別圖片中存在的文字。許多違規內容,包括聯系方式、色情信息、廣告信息等為了規避審核,都會以圖片的方式呈現。
人臉識別技術 ,通常用來識別政治、宗教類人物,識別到後可以直接刪除或者進行風險標記。
語音識別技術, 語音識別的應用場景比較多,但在內容審核領域仍然不是剛需,所以使用的較少。但也有些直播或音頻平臺比較重視音頻對比、聲紋識別技術,可以輕易識別到壹些固定模式的違法違規聲音。
視頻識別≈圖片識別 ,視頻是畫面與音頻組成的以幀為單位的畫面,通常采取截幀上傳與服務器數據對比來識別。審核模式和圖片審核相同,比如通過畫面皮膚裸露狀態來判斷是否過於性感、是否是色情內容。
上下文語義識別技術 ,這種技術用來判斷壹句話是否能跟上下文結合,是否是壹段垃圾文本。比如說,在評論區隨便輸入壹串奇怪的文本,如果系統認為和上下文不相關,就有理由將內容放入審核區。
技術是很酷,用好了可以大量減少我們的工作,但內容審核技術的實施是壹件很難壹勞永逸的事情,其中的尺度和參數都需要人來不斷維護,而且人工審核仍然是非常有必要的,並且需要的人工可能越來越多。內容審核技術的應用,仍然任重道遠。
1.替代關鍵詞不能太簡單
我曾經在壹款APP上看管理類文章,整篇文章多處說到給員工定績效要遵循“ ART原則”,我遲疑了好幾秒才明白,原來是" SMART原則**"。
SM這個詞只有兩個字母,無論是作為禁止、審核還是替換關鍵詞都不合適,都容易攔截或替換大量不應該處理的內容,壹般的方法很難處理。
這時候,我們可以總結壹下模式,如果sm這兩個字母前面是英文字母,或者後面是英文字母,壹般來說就是另壹個英文單詞,就不會有問題。我們就可以用正則表達式把這壹規則寫出來,再設置審核或替換就會好很多。
2.審核時間與用戶體驗的權衡
去知乎和微博搜壹下“審核”,被抱怨最多的問題就是 審核時間長 。用戶提交內容到內容審核通過,這期間心情會劇烈波動,如果用戶等了壹兩天時間,最後內容被莫名其妙地拒絕,而且不給任何明確的拒絕理由,用戶的心情就會由期待變為焦慮,進而變成憤怒,這就是B站被up主抱怨最多的地方。
我們可以從以下角度優化用戶體驗:
3.理解內容審核的保守傾向
越是體量很大的平臺,內容審核越是有保守傾向,這不只是因為盤子大了更加在意風險管理,還有壹些現實的原因。內容數量太多,平臺就不得不采用規則和算法去審核,這些規則和算法需要最終做出決策,就難免拿著標準壹刀切,即使這把刀很小也會有誤傷,這種標準對很多內容就顯得過於嚴格。
比如 皮膚裸露面積 達到多少會有問題、裸露哪些位置會有問題,無論標準多麽的細化,都會存在誤判,被誤判的內容比例可能很小,但絕對數量很大。據說很多圖片和視頻中如果存在 加菲貓 ,都會被過濾掉,因為它黃色面積太大而且和人的皮膚很像。
在被審核的用戶看來這些標準有點保守,有點不近人情,甚至可笑。平臺的管理人員也知道問題,但他們很難做到很細致,為了快速把違規的內容剔除,只能犧牲掉壹部分人的用戶體驗,畢竟違規內容壹旦出現,對平臺來說就是大問題。所以說,內容審核技術的應用還非常任重道遠。
以上的內容,對於壹個運營或產品工作者來說,已經足夠了。但如果妳真的需要對壹款產品的內容審核規範負責,就需要去學習更多知識,需要有更加專業的精神和更謹慎的態度,未來還會有無數難以預料的坎坷等著妳。