但是對於今日的互聯網和移動互聯網,大數據的規模和應用深度早已不次於傳統的電信、民航等行業,甚至超過不少。因此筆者還是想寫些東西淺談壹下互聯網的大數據應用,權當拋磚引玉,也希望更多的朋友參與交流和討論。
首先,第壹篇想談壹下互聯網的用戶系統。無論互聯網還是移動互聯網,本身具有很大的特性就是互聯,所以我們都可以稱之為互聯網,或者說移動互聯網是互聯網的壹個子集和延伸。
在傳統的電信、民航、能源等行業,企業的客戶和主體用戶構成都是有身份ID的。比如電信行業中身份證登記的手機卡號,比如民航用戶乘坐航班登機的身份證或護照信息等,這些信息可以作為基本的用戶身份ID,便於企業對其用戶、客戶進行身份辨別,並對後續的用戶行為進行跟蹤和分析。傳統企業所存儲的用戶信息的很大優勢在於完整性,很多先天的比如姓名、性別、年齡甚至籍貫等真實的基礎身份信息都可以簡單獲得。而在互聯網上,用戶的訪問都是匿名的,即使用戶在接入互聯網的時候使用的登記信息是實名的,但那主要是提供給電信服務商和公***安全機構備案而用。普通的互聯網網站在用戶面前是完全透明的被"圍觀"的,這個狀況在web1.0 的主要產品--門戶網站中最為典型。到了web2.0 時代,互聯網開始變得互動起來,用戶從簡單的匿名瀏覽,變成了可以通過註冊身份參與信息的制造和流通。這個時候,誕生了這個時代在談的互聯網大數據應用中非常重要的壹個非決定性條件--用戶身份系統。為什麽說是"非決定性條件"呢?因為,在這之前,大量的數據分析也是可以做的,但是由於對用戶缺乏身份缺乏甄別,因此數據分析能夠應用的場景和得到的數據都相對很有限,但並不代表不能做大數據分析。而web2.0的用戶身份系統誕生,則使互聯網某種程度上具有了和傳統行業同樣的用戶身份記錄系統,數據統計和分析都可以更精準和深入。其中,以騰訊QQ、新浪UC等PC桌面產品為代表的互聯網早期產品,應該是建立了互聯網更早的用戶身份系統,我們也可以看到這些系統在其後續的web產品鋪開時同樣被繼承了過來。
那麽,互聯網的用戶身份系統,壹般都具有哪些信息呢?
打開任何壹個網站,我們都可以看到註冊頁面需要填寫用戶名/email,性別,年齡 等基本信息。當然,不同的網站和互聯網產品有不同的用戶資料細化的程度。拿現在比較流行的幾款產品做比較,其他互聯網產品大多類似:1.新浪微博中用戶可以填寫自己的昵稱、頭像、真實姓名、所在地、性別、生日、博客地址、email、QQ/MSN、自我介紹、用戶標簽、教育信息、職業信息……;2.騰訊QQ客戶端上可以填寫頭像、昵稱、個性簽名、姓名、性別、英文名、生日、血型、生肖、故鄉、所在地、郵編、電話、學歷、職業、語言、手機……
看起來還真不少,那麽網站要用戶的這些信息會被幹嘛用呢?
這裏筆者劉三德認為主要有以下幾點:1. 展示自我;2.作為唯壹的身份ID用作用戶身份區別;3.搜索和推薦相關;4.網站自身可以做用戶分析和用戶行為跟蹤。展現自我放到第壹位是因為這是從產品滿足用戶需求的角度決定的,用戶資料的首要任務就是為了作為用戶唯壹的可識別身份標識展示自我。其次,搜索和推薦相關這壹點筆者劉三德計劃在後續用專門的篇章來寫,此處簡單理解即可。最後壹點,也就是本文所關註的壹點,就是用用戶身份來做數據分析。涉及到的用戶分析主要維度為用戶資料和用戶行為。同樣,用戶行為也計劃在後續篇章專門來寫,本文著重討論壹下用戶資料的分析。
可能行業內的壹些文章和老前輩的觀點,數據首先要量大、其次要有高的復雜度,才可以稱為大數據。但筆者認為,大數據在壹維的層次上不壹定具有很強的復雜度,大部分是由最簡單的數據形式構成。就譬如用戶資料,壹個網站如果有壹千萬的註冊用戶,如果每個用戶的資料具有6個有效字段,就是6000萬的有效數據。而將這6000萬的有效數據通過壹層或者幾層簡單的統計疊加分析、交叉分析等,在計算上本身就具有了不小的復雜度。何況現今的互聯網產品,尤其社交類產品如FACEBOOK,騰訊QQ、新浪微博等動輒上億的註冊用戶,本身用戶系統就是壹個非常具有價值的大數據。[page]
通過分析用戶系統可以得到什麽呢?
當然,用戶填寫的註冊資料中包含的資料,都是最基礎的分析數據。還是用數據說話,如下圖:
以上圖片來自互聯網
以上數據是第三方機構公布的,而且都是最簡單的壹維數據,我們可以看到很多家網站的用戶資料對比(上面引用的部分數據來源也可為線上調查問卷等形式)。對於獨立的壹個網站來說,用戶資料的分析當然只是局限在自己的網站範圍之內。進入互聯網web2.0時代以後,大家都開始更加重視用戶和用戶體驗,對於網站自身用戶的特征進行分析,可以更好的網站的用戶特性分布,方便針對網站的用戶群特點更有針對性的進行對應的產品設計和研發。比如通過了解用戶的消費層次等,也可以更好的提供用戶消費相關展示和服務。
那麽,無用戶身份信息的互聯網是否不再大數據?--不用註冊的用戶身份系統的。
可能有的朋友會對這個話題存疑問,也可能有的朋友會驚恐,認為隱私泄露了,其實這裏的應用也非常簡單。在類似傳統的web1.0 門戶類以展示為主的互聯網產品中,也是可以做數據的分析和挖掘的,而且也有比較成熟的方案。是否有朋友曾經經歷過以下場景:在百度上搜索汽車、查了半天汽車資料,壹個小時以後再隨手打開的壹個圖書閱讀網站上居然出現了"汽車廣告".其實,即使我們沒有在這些網站上註冊,百度等搜索引擎本身還是可以為用戶標識壹個唯壹的身份信息,雖然這個身份信息只是臨時的,可能有效期也只有幾天左右。但是,這依然是壹種唯壹的用戶身份,只不過是記錄的信息有限而已,但是仍然為用戶行為分析提供了很大的幫助。感興趣的朋友可以搜索"google adsense隱私政策" 進行相關了解,此處不在贅述。
用戶資料系統方便了壹系列的大數據挖掘
除了傳統的互聯網桌面端和web端產品,最近幾年突飛猛進的移動互聯網以及終端應用,基本也都有完備的用戶信息系統。apple蘋果公司做了app store,迄今為止的應用下載次數突破250億次,而每壹次的下載都需要使用唯壹的用戶ID,通過分析,蘋果可能比妳父母更加了解妳想要什麽--這屬於用戶行為分析範疇,後續將專門討論。
總之,用戶身份和資料的分析是互聯網大數據分析中最基礎的分析,用戶身份系統在互聯網的大數據時代,為後續的用戶行為分析和對應的企業產品、服務設計提供了基石,也為更加深入的數據挖掘奠定了基礎。