口號大全團隊口號個性簽名藝術簽名經典古詩古詩大全成語故事成語大全漢語詞典字典詞典成語查詢四字成語成語經典成語解釋成語用法

語料庫的概述

名詞（corpus，復數corpora）

指經科學取樣和加工的大規模電子文本庫。借助計算機分析工具，研究者可開展相關的語言理論及應用研究。

corpus

n. (pl. corpora)

refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

語料庫是語料庫語言學研究的基礎資源，也是經驗主義語言研究方法的主要資源。應用於詞典編纂，語言教學，傳統語言研究，自然語言處理中基於統計或實例的研究等方面。語料庫有多種類型，確定類型的主要依據是它的研究目的和用途，這壹點往往能夠體現在語料采集的原則和方式上。有人曾經把語料庫分成四種類型：⑴異質的（Heterogeneous）：沒有特定的語料收集原則，廣泛收集並原樣存儲各種語料；⑵同質的（Homogeneous）：只收集同壹類內容的語料；⑶系統的（Systematic）：根據預先確定的原則和比例收集語料，使語料具有平衡性和系統性，能夠代表某壹範圍內的語言事實；⑷專用的（Specialized）：只收集用於某壹特定用途的語料。

除此之外，按照語料的語種，語料庫也可以分成單語的（Monolingual）、雙語的（Bilingual）和多語的（Multilingual）。按照語料的采集單位，語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式，還可以分為平行（對齊）語料庫和比較語料庫，前者的語料構成譯文關系，多用於機器翻譯、雙語詞典編撰等應用領域，後者將表述同樣內容的不同語言文本收集到壹起，多用於語言對比研究。已經累積了大量各種類型的語料庫，如：葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據（OpenSubtitles Corpus）、《聖經》雙語語料庫（Bible bilingual corpus）、Short messages service(SMS) corpus（短消息服務（SMS）語料）等。語料庫有三點特征

⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料，因此例句庫通常不應算作語料庫；

⒉語料庫是承載語言知識的基礎資源，但並不等於語言知識；

⒊真實語料需要經過加工（分析和處理），才能成為有用的資源。

語料庫的發展經歷了前期（計算機發明以前），第壹代語料庫，第二代語料庫，到第三代語料庫