數據標註實務—數據標註概述。
數據標註發展簡史
數據標註行業的發展
1、人工智能發展史
人工智能的概念在上世紀五六十年代被正式提出。
圖靈測試
1956年在達特茅斯會議上首度提出“人工智能(AI)”概念,被譽為“人工智能的起點”。人工智能的發展經歷了起起伏伏,從理論到實踐,從初期在現實應用環境中使用效果不佳,到通過技術的突破,實現存儲能力、計算能力的大幅提升的過程。
2、數據標註的起源
2007年,斯坦福大學教授李飛飛等人開始啟動ImageNet項目。
數據標註的概念:標註是對未處理的初級數據,包括語音、圖片、文本、視頻等進行加工處理,並轉換為機器可識別信息的過程。
3、人工智能算法與數據標註之間的關系
強人工智能vs弱人工智能。
深度學習是人工智能目前的壹個重要研究領域,其主要有四種方式:監督學習、無監督學習、半監督學習、強化學習,監督學習是當前人工智能的研究重點。
國內數據標註行業的發展現狀
數據標註行業近幾年發展迅猛,要求越來越高。
1、市場端
預計2025年市場規模將突破100億元人民幣,對標註數據的需求量會更大,數據標註行業的發展前景是十分向好的人工智能算法與數據標註之間的關系。目前數據標註需求量最大的五座城市分別是:北京、成都、杭州、上海、深圳。
2、供應商端
分為三大類:平臺數據供應商、中小數據供應商、需求方自建團隊。從供應商的發展來看,行業內部處於“洗牌”階段。
什麽是數據標註
數據標註(Data Annotation)是對文本、圖像、語音、視頻等待標註數據進行歸類、整理、編輯、糾錯、標記和批註等加工操作,為待標註數據增加標簽,生成滿足機器學習訓練要求的機器可讀數據編碼的工作。
標簽(Label)
標註任務(Annotation Task)
數據標註員(data labeler)
標註工具(annotation tool)
數據標註的工作特點
數據標註工作特點是由數據標註項目的特點決定的,而且需要根據效果不斷進行需求調整。
需具備以下能力:可遷移學習能力、重復標記能力、細心專註能力、總結提煉能力。
據標註定義及分類
數據標註的基本流程
包括4個環節:
數據采集:首要環節,來源於提出標註需求的人工智能公司。常通過互聯網獲取公開的數據集與專業數據集。
數據清洗:重要的環節,對數據進行篩檢,去重,並對數據集中存在的異常值與缺失值進行查缺補漏,同時平滑噪聲數據,最大限度糾正數據的不壹致行和不完整性。
數據標註:由標註員負責標註數據,可采用分類標註、標框標註、區域標註、描點標註或其他標註方法進行。
數據質檢:關鍵環節,常見的控制質量方法:多人驗證、埋題驗證、標註人員狀態驗證、機器驗證。
數據標註的分類
常根據待標數據類型進行分類:
文本標註:主要是用於自然語言處理(Natural Language Processing,NLP),如:客服行業、金融行業、醫療行業等。其標註方式有:分詞標註、詞性標註、情感標註、意圖識別、實體標註等。
音頻標註:主要用於語音識別(Automatic Speech Recognition,ASR)和語音合成(Text-To-Speech,TTS),ASR技術主要是將聲音轉成文字,而TTS技術主要是將文字轉化為聲音。目前較常見的應用場景有智能客服、電話機器人、蘋果手機的Siri等。音頻標註方式有語音轉寫、語音情感標註等。
圖像標註:主要給計算機視覺相關的算法提供數據集,日常能了解到的場景如人臉識別、自動駕駛、車牌識別以及目前比較火的醫療影像的識別等都會用到圖像標註。標註方式有矩形框標註、多邊形拉框、打點、OCR識別、語義分割、圖片審核分類等。
視頻標註:主要是通過對視頻取幀後進行圖片標註,然後再進行合成訓練。例如:監控視頻、自動駕駛、智慧交通等,其標註方法基本和圖片標註壹致。
數據標註的應用領域
盡量理解標註數據的應用場景,對於標註質量有重要意義。
出行領域:常見的標註方式有:點標註、線標註、框標註、3D點雲標註、場景語義分割、PoI(Point of Interest)標註等。
安防領域:政府層面多。人臉標註、視頻分割、語音采集、行人標註等是重要的數據標註應用。
金融領域:文字翻譯、語義分析、語義轉錄、圖像標註等都會得到很廣泛的應用。
電子商務領域:能進壹步深度挖掘數據集,通過互聯網搜索指定內容的搜索完善、通過語句的情感判斷、意圖判斷、糾錯、以及語言的采集、標註等均為重要的數據應用。
公***服務領域:檢查內容是否符合要求的內容審核,對具有相同意義的語句進行歸類的語義分析、意圖識別、語音轉錄,以及視頻審核、文本審核等都是數據標註常見的應用領域。
數據標註行業的運行模式
數據標註的特點
標註內容最小顆粒度、項目標註數量大、標註需求叠代快。
數據標註在人工智能中的地位
數據標註為人工智能公司提供了大量的帶有標簽的結構化數據集,供機器進行訓練和學習,保證算法模型的有效性。而數據標註的準確性決定了人工智能的有效性,因此在目前階段數據標註在人工智能中還占據著非常重要的角色,而且在未來壹段時間依然非常重要。
數據標註運行模式
可以參考PM項目管理。
數據標註行業未來發展趨勢及挑戰
具前瞻性的數據集產品和高度定制化數據服務將成為數據標註行業發展的主流。
數據標註行業競爭加劇的發展趨勢
目前已進入快速增長期,微觀角度來看:市場規模不斷擴大,市場競爭的加劇,行業內部或將迎來“洗牌期”;宏觀角度看:高質量、精細化、定制化的數據集越來越受到需求方的青睞。
政策的有力支持
工業和信息化部印發了《促進新壹代人工智能產業發展三年行動計劃(2018-2020年)》。
2020年2月,“人工智能訓練師”正式成為新職業隸屬於軟件和信息技術服務人員小類。
面臨的問題和挑戰
挑戰1:標註需求難度加大、行業結合深入不夠。
挑戰2:半自動化標註工具及管理平臺的研發不足,關註兩個重點:如何提升標註效率和如何做好項目管理。
挑戰3:數據標註質量的把控不過關目前已進入快速增長期。
挑戰4:數據安全與隱私的保護不容樂觀,目前產生了如數據治理、數據分割、數據安全傳輸和區塊鏈等技術。
數據標註行業的前景與發展
數據標註行業前景廣闊,但也面臨諸多挑戰。
唯有不斷提升自身技術實力、快速叠代自身業務以適應需求變化、並打造品牌與實力的雙重口碑效應,才能在激烈的市場競爭中更具優勢,建立高度排他性技術壁壘,從而保證自身在競爭中立於不敗之地。