原文链接: https://zhuanlan.zhihu.com/p/28838654
美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。从1990年至2015年间语料库以每年增加两千万词的速度进行扩充,以保证语料库内容的时效性。因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。
语料库的地址是:http://corpus.byu.edu/coca/
与传统词典相比,COCA具有以下几点优势:
(1) 语料库的文本实时性比较强,类似life satisfaction, social media这样的词很多传统词典都没有收录,但在语料库中都可以查到。
(2) 语料库可以提供单词的词频信息,这有助于我们了解该单词在实际应用中的出现频率,有助于实现准确用词。
(3) 语料库还能提供模糊搜索和单词搭配等功能。
实际使用时可以将语料库作为词典的补充工具,在词典里面无法确定的表达可以放到语料库中查询,以获得更多信息。下面是COCA的几个常见操作:
(1)确认表达是否地道
这是语料库最基本也是最重要的一个功能。我们有时候会碰到一些模棱两可的表达,比如“用鼠标点击一下”是at the click of a mouse还是with the click of a mouse? “普通人”译为the common people是否为中式表达?这些细琐的知识点都可以在语料库中找到答案。
对于第一个问题,我们可以在COCA的网站上搜索at the click of a mouse
结果表明这个表达在语料库中有30处例证,并且at the click of a mouse的意思与我们预想的一致,比如这是其中一句:Thanks to the internet, several lifetimes’ worth of gardening wisdom is available at the click of a mouse. 这说明at the click of a mouse这个表达没问题。
再用相同的方法验证with the click of a mouse,我们会发现该表达在语料库中也有37处例证,而且与我们预想的一致。这说明at / with the click of a mouse这两个说法都是正确的。
至于the common people是否为中式表达,各位可以亲自到COCA上查一查。
(2)确定单词的使用语境
COCA的一个特色功能是能统计一个单词或短语在口语、小说、流行杂志、报纸以及学术文章五种不同文体中的出现频率,这意味着我们可以根据这些词频来确定它们的最佳使用场景。
举个例子,在学术写作中,我们一般推荐学生用many来代替a lot of,因为a lot of是一个非正式表达,更多出现在口语中。对此,我们在COCA中可以找到例证。
选择网站列表的Chart功能,然后输入a lot of,点击See frequency by section,我们可以看到a lot of这个词组在口语、小说、流行杂志、报纸以及学术文章这五种文体中的出现频率:
结果表明,a lot of在口语中出现了超过10万次,在小说、流行杂志、报纸中出现的次数也都超过了1万,但在学术文章中只出现了4000多次,这说明它在学术文章中的使用频率偏低。
对比一下a lot of的同义词many,我们会发现它在学术文章中的出现频率较高,超过11万次,这说明在学术文章中使用many会比用a lot of更为合适。
下次遇到不确定使用语境的单词时不妨放到语料库中查一查,如果你发现它在某一文体中出现频率很低,那使用时就要多加注意了。
(3)比较近义词的区别
近义词辨析是一个让人感到头疼的问题,有时候即使借助词典也找不到满意的答案,这个时候语料库就可以派上用场了。
COCA有一个很好用的“比较”功能,这个功能可以用来比较两个近义词的区别。
举个例子,murder和assassinate都有“谋杀”的意思,两者有哪些区别呢?
在COCA网站中选择Compare功能,然后在Word1和Word2中分别输入murder和assassinate,Collocates框中输入_nn*(表示查询的是与murder/assassinate搭配的名词),最后在下方的数字框中分别选择3和3(表示查询文本中与murder/assassinate相距三个单词及以内的所有名词)。
我们可以得到这样的结果:
从上面的表格中可以看出,与assassinate搭配的大都是leaders/president/ambassador/king这类重要人物,但与murder搭配的更多为wife/victim/husband这类常见对象。而且某些特定单词只能跟murder搭配,比如murder scene这一搭配在语料库中出现了372次,但assassinate scene出现的次数是0次,说明在英语中很可能没有assassinate scene这样的用法。
又比如valuable/invaluable,两者都可以表示“宝贵的”,但在COCA的搭配中可以发现这样特点:
valuable更多用于搭配player/land/space/commodity/estate这样的实物,而invaluable则搭配help/assistance/guidance/support这类抽象事物,而且对于space/land/award这几个名词,我们只能说 valuable space/land/award,而不能说invaluable space/land/award
(4)寻找合适的用词
COCA的另一个特色功能是同义词选择功能。我们可以根据语料库的建议选择更加合适的用词。
举个例子,有个同学想表达“我们城市有一个很高大宏伟的超市”,英文写成:There is a large and tall supermarket in our city. 细读这个句子你会发现,tall supermarket这个表达很别扭,而且在语料库中找不到例证。应该换成什么单词呢?COCA可以给到答案。
在网站上选择List功能,输入 [=tall] supermarket(这个指令表示寻找tall的近义词,并且该近义词要能够与supermarket搭配),结果如下:
根据语料库给出的建议,a big/giant/colossal supermarket这几个表达都可以用来替换a tall supermarket
又比如:Young people often take an interest in what is happening outside their own country. 如果你想寻找take an interest in的替换表达,可以搜索 [=take] an interest in
从语料库给出的结果我们可以找到 show/acquire/get an interest in这些替换说法。
(5)寻找句式
《哈姆雷特》中有一个著名的句式:To be, or not to be: that is the question. 有没有想过可以用语料库来寻找类似的句子?
在COCA中输入 to [v*] or not to [v*](其中[v*]代表动词),可以找到很多类似的说法,例如:To do or not to do / To see or not to see / To eat or not to eat 等等。
使用通配符还可以查找一些特殊用法,比如搜索 [v*] * into [v?g] 可以找到“动词接任一词再接into V-ing”的结构,例如fool you into thinking / talked him into going / trick people into thinking 等。
除此之外,COCA还有一些奇技淫巧,有时候在特殊场合能够用上。
例如搜索 *light* 可以找到所有包含light的词,比如slight/flight/delighted等。搜索 un*ly 可以找到所有以un开头,以ly结尾的单词,比如unlikely / unexpectedly / unfairly / unruly 等。搜索 it is [v*] that 则可以找到所有结构为 it is + verb + that 的句式,比如 it is estimated that / it is said that / it is believed that / it is assumed that / it is recommended that
更多的语料库用法欢迎各位自行探索。
注意:使用COCA时建议注册一个账号(语料库的使用和注册都是免费的),不然会有查询次数限制。关于查词的语法可以参考网站右侧的使用说明。祝使用愉快!