古詩詞大全網 - 成語故事 - 論文中常提到的tokens是什麽意思

論文中常提到的tokens是什麽意思

在語料庫語言學中,會計算文本的tokens和types。tokens指的是“形符”,就是文本中出現的所有詞的個數;types指的是“類符”,就是文本中出現的不重樣的詞的個數。

比如,有壹個兩句話的文本:I am a boy. I am a boy.

那麽這個文本裏面有8個tokens,有4個types。兩個數值可以對所建立的語料庫進行描述,也可以計算二者之比,來計算語料庫文本的復雜程度等等吧。

這是語言學方面,尤其是語料庫語言學經常出現的tokens的意思。更詳細的可以看壹些語料庫語言學方面的文章。