古詩詞大全網 - 成語故事 - 語料庫的概述

語料庫的概述

名詞(corpus,復數corpora)

指經科學取樣和加工的大規模電子文本庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究。

corpus

n. (pl. corpora)

refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.

語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或實例的研究等方面。 語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這壹點往往能夠體現在語料采集的原則和方式上。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料;⑵同質的(Homogeneous):只收集同壹類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某壹範圍內的語言事實;⑷專用的(Specialized):只收集用於某壹特定用途的語料。

除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到壹起,多用於語言對比研究。已經累積了大量各種類型的語料庫,如:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫(Bible bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。 語料庫有三點特征

⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;

⒉語料庫是承載語言知識的基礎資源,但並不等於語言知識;

⒊真實語料需要經過加工(分析和處理),才能成為有用的資源。

語料庫的發展經歷了前期(計算機發明以前),第壹代語料庫,第二代語料庫,到第三代語料庫