古詩詞大全網 - 成語故事 - 如何評價季逸超,Peak Labs 和 Magi 搜索引擎

如何評價季逸超,Peak Labs 和 Magi 搜索引擎

正面評價:

@季逸超 團隊的工程能力非常強,少數幾個人在壹年裏可以搭起來可用的demo,水準不輸於我見過的任何壹個優秀的工程師。有這樣高效的團隊,相信往後會越來越順利。

知識圖譜的構建和應用也會是文本相關的各種任務上下壹個增長點。Google花了很大力氣在做,M$也是,學術界對這方面的關註和投入也在持續增長。我相信往後的幾年,即使是這塊沒能出現類似Uber, Airbnb這樣的顛覆型產品,起碼能把我們日常使用到的各種工具,例如搜索,siri等,的效果提升到壹個新的級別。

最後,Maji找準了國內這塊市場的空白,抓到了很好的切入點,原先團隊的積累也讓Magi在資本市場上壹帆風順,最後這個問題和36氪的PR(宣傳)也做得很好。例如和PR成功案例,watson,的聯系,以及各種超出科研基金申請報告中描繪的科幻遠景。這些都是每壹個有誌創業的年輕人需要思考和學習的。

總之,我覺得magi能成功,以後如果沒有被Baidu抄了去,就會被Baidu買了去。我猜會傾向於買了去,畢竟Baidu自己從頭開始做,要花的人力成本也不低了。國內也很難找到對應的人才。

同時也有很多懷疑:

疑惑1:

是demo裏的那些長query(搜索詞條)。長query得理解是非常非常難的問題。更不提理解中文的這種毫無固定格式的問句了。demo中出對幾個復雜長query出壹些好結果很簡單,真正應用做的好麽?去試了插件的demo後,我覺得做不好。從demo的效果反推的技術來說,離真的做好demo中提到的那類長query,我個人感覺不是量的差距,是質的差距。

為什麽?類比的話,Watson無數工程師,不差錢的IBM毫無業績要求的完全當做壹個PR項目來做,目的就是為了Jeopardy。才能對英語這種,有W和H的顯示問句意圖表達的語言,且是Jeopardy固定格式的問題,能夠做到比較好的效果。這個過程大概花了5年。除了有很多QA領域的專家以外,還有很多工程師的hard code提效果。

而Watson至今離真正商用遙遙無期。我甚至不覺得watson可以真的商用。(我個人對QA的感覺是往後這個東西會真的商用,做到滿足大多數日常問答需求。但這個過程可能要5年起步。而且這件事情可能發生在Google,可能在Apple的Siri,也可能是MSR先有paper,但是如果是IBM,我會很吃驚。)

如果Magi能夠做到demo中顯示的長query的分析效果,甚至不需要做其他的任何事情,就可以有大概讓兩位創始人壹起高科技人才引進的Eb1A類綠卡這種級別的論文,然後也可以被Google,IBM或者Baidu二話不說的收購。

所以我覺得要麽是Magi的團隊是不世出的天才,壹年時間,沒有用戶訓練數據,幾個人,還是中文,可以做到demo裏長query的效果,要麽這個就是為了PR目的的誇大。

疑惑2:

Magi所謂的自動從非結構化信息中抽取知識圖譜。Magi主頁上寫的是:

Magi 日益增長的結構化數據庫中目前擁有950個大類3300個子類的2100萬個對象, 囊括從電子遊戲到天體物理、從AV女優到美國總統的方方面面信息, 並抽象出了超過1億6000萬條事實的知識網絡

這個效果非常驚人。

非常驚人。

非常驚人。

(重復表示強調)

驚人到什麽程度呢?如果這是真的,這950個大類,3399個子類,2100萬個對象都是真的可用級別的話,那麽:

1,創始人把這個寫出來可以拿任何壹個相關領域頂會的Best Paper,會成為Information Extraction領域的新的明星。

類比:Open Information Extraction和我們學校的NELL是比較有名的自動從非結構化信息抽取知識圖譜的工作。前者是University of Washington at Seattle的,後者是CMU的。兩個組光做這兩個系統,都做了超過5年。CMU的直接是機器學習系的系主任領頭,抓取和分析程序幾年來沒有停止過,但是還是做不到Magi的1/10的級別,噪聲也特別多,尚未達到可用級別。數量和質量都不如直接用Wikipedia的dump。而Wikipedia的對象大概有多少呢?500萬左右。

2,Google或者MS會直接願意買,別的什麽都不要,就只是這個系統。

類比:Freebase Freebase (需翻墻...) 是知識圖譜裏最好用的。2010年Google花了大價錢買了下來。花了多少錢沒有公布,但是Freebase之前已經拿了$57M的融資,Google花的錢應該是這個的兩倍起,那就是壹億美金往上。

Google買了下來之後花了很多人力去提升Freebase的質量和數量,還有社區的貢獻,自動和非自動的方法都上了。4年之後,Freebase的量級是多少呢?

3700萬個對象,5億的事實,77個大類

和幾百個小類(具體沒有數了)。

而這3700萬個對象裏面,可用的部分,即信息全面,有名稱,文本描述的有多少呢?

還是500萬。這是Google和我們組合作發布的網頁實體標註裏用到的對象集的大小。

而且,這些統計都是英語。

所以如果Magi主頁上宣傳的是真的,那麽幾個人,壹年時間,通過在已有的Wiki,百科之類的地方之外,在中文這個比英文更難得語言上,做出了超過Google花了$57M以上收購,並作為下壹個核心增長點耕耘了4年的Freebase的效果。

同時,甚至可以說Magi憑借幾個人的力量,解決了中文分詞剩下5%的問題裏的壹大半,從此中文分詞甚至可以說是壹個solved problem。眾所周知現在分詞95%的情況下已經可以做到非常好了,剩下的5%是罕見詞的問題。而這裏面絕大部分是命名實體,也就是所謂的對象。

而2100萬的命名實體是什麽概念呢?壹般中文分詞能夠切分出來的詞的數量,大概在幾十萬的量級。在這幾十萬的基礎上,壹下子加了2100萬的命名實體,想必從此之後:

任何壹家中文信息處理公司都基本不用再為分詞擔心,

所有在線廣告可以直接通過這2100萬的命名實體效果提升壹個量級,

所有中文輸入法不會再出現需要壹個個選單字的問題,不需要再選擇download神馬行業詞庫,只靠這2100萬,似乎就夠了。

如果這些都是真的話:

跪求公布數據... 跪求深度合作... 跪求不要賣給不開源的黑心大企業。

同時真心為我的懷疑道歉,並求Magi給面試機會......

為了人類文明的進步,前進!前進!前進!