古詩詞大全網 - 成語故事 - 什麽叫搜索引擎垂直細分?它的現狀是什麽?它有什麽意義?

什麽叫搜索引擎垂直細分?它的現狀是什麽?它有什麽意義?

垂直搜索是針對某壹個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行壹次整合,定向分字段抽取出需要的數據進行處理後再以某種形式返回給用戶。

垂直搜索引擎和普通的網頁搜索引擎的最大區別是對網頁信息進行了結構化信息抽取,也就是將網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。然後將這些數據存儲到數據庫,進行進壹步的加工處理,如:去重、分類等,最後分詞、索引再以搜索的方式滿足用戶的需求。

整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用戶。

垂直搜索引擎的應用方向很多,比如企業庫搜索、供求信息搜索引擎、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索……幾乎各行各業各類信息都可以進壹步細化成各類的垂直搜索引擎。

舉個例子來說明會更容易理解,比如購物搜索引擎,整體流程大致如下:抓取網頁後,對網頁商品信息進行抽取,抽取出商品名稱、價格、簡介……甚至可以進壹步將筆記本簡介細分成“品牌、型號、CPU、內存、硬盤、顯示屏、……”然後對信息進行清洗、去重、分類、分析比較、數據挖掘,最後通過分詞索引提供用戶搜索、通過分析挖掘提供市場行情報告。

垂直搜索引擎大體上需要以下技術

1.Spider

2.網頁結構化信息抽取技術或元數據采集技術

3.分詞、索引

4.其他信息處理技術