龙空技术网

三分钟科普|语料库初探(一)

翻译技术千千问 25

前言:

此时各位老铁们对“ldc语言”都比较珍视,小伙伴们都需要学习一些“ldc语言”的相关内容。那么小编同时在网上收集了一些有关“ldc语言””的相关知识,希望姐妹们能喜欢,小伙伴们一起来学习一下吧!

长久以来,语料库是一直是一个热门研究话题,广泛应用于语言文学、计算机科学等学科研究,以及机器翻译研发、词典编纂等领域,应用场景繁多。

知网数据显示,中国语言文学、外国语言文学、计算机软件及计算机应用等学科占据了语料库研究论文数量的八成以上,是语料库的主要应用领域。翻译界的专家学者和翻译专业的高校师生也使用语料库进行翻译研究、翻译教学和翻译实践。仅从近十年论文产出数量来看,或许可以得出近年来语料库研究热度持续升温的结论。

(▲语料库论文的学科类别 数据来源:知网)

(▲语料库论文数量 数据来源:知网)

小编将通过数期推送介绍语料库在翻译实践中的运用,本期是语料库系列推送的第一期,将简要介绍语料库的基本概念,让我们一起来揭开语料库庐山真面目吧!

(一)语料库的具体内涵

英国兰卡斯特大学的 Tony McEnery 教授是国际语料库语言学界的代表性学者,他在 Corpus-based Language Studies: An Advanced Resource Book 一书中对语料库有如下定义:

A collection of machine-readable, authentic texts (including transcripts of spoken data) which is sampled to be representative of a particular language or language variety

作者:Tony McEnery

上述定义中高亮的词描述了语料库的四个基本特征:

01

machine-readable

由于语料库数据规模十分庞大,动辄上亿,且搜集的语料需经过加工处理,其统计和分析十分繁杂,仅仅依靠人来阅读检索很难实现。毕竟,看过一本书就能回忆起某句话在哪一页第几行的人毕竟是少数,所以语料库一定要机器可读;

02

authentic

语料库中存放的是在语言实际使用中真实出现过的语言材料,要最大限度代表语言使用的真实情况。另外,真实语料要经过加工处理才能成为有用资源。下面这段话进一步解释了“authentic text”:

“All the material is gathered from the genuine communications of people going about their normal business” unlike data gathered “in experimental conditions or in artificial conditions of various kinds”.

作者:John McHardy Sinclair

03

sampled

语料库是一个有限的集合,是实际语言运用的抽样,无法涵盖所有语料。显然,即使是搜索引擎这样能够抓取海量数据资源的工具,也无法获得互联网上所有信息。抽样的方法取决于语料库的建设目的,并没有一个放之四海而皆准的标准;

04

representative

语料选取的抽样方法对语料库代表性至关重要。例如,我们常用的美国当代英语语料库(COCA)为准确反映美国当代英语的整体使用情况,选取了等量不的同体裁语料,以确保其具有代表性。

(▲数据来源:COCA语料库官网)

综上,语料库是一个可供机器检索的有限文本集合,通过一定方法抽样选取真实语料,以最大限度代表语言使用的真实情况,以研究一种语言或者语言变体。

随着时代发展,语料库所收集的数据便不仅限于文本数据,还包括音频、视频、图片等多模态语料。

(二)语料库的前世今生

经验主义是语料库诞生的思想基础。建立认知的过程总是从观察开始,当对某一现象有一定的观察积累后,感性认识才能升华成理性认识。语言研究也是如此,为了对语言形成整体认识,显然需要对语言进行大量观察。所以,建立一个足够大的语料库是对语言形成全景性透视的前提和基础,也是我们进行语言研究的有效方法。

基于语料库的统计分析研究属于经验主义范畴,是基于统计的,与基于规则的理性主义相对。理性主义认为,世界由公理系统可以产生, 像数学一样严谨和完美,我们只要有很少的公理,然后不断地进行演绎, 就可以构建出我们这个世界。但语言研究无法像数学公理系统一样,基于一些有限的规则,就演绎出我们完整的自然语言体系。虽然这听起来很美妙,但人类具有强大的创造力,使用的语言具有很强的随机性,有限的语言规则无法演绎生成无限的语言。倘若未来某一天人类发现了这样一套公理系统,那么机器翻译就能随时替代人工翻译。

计算机技术的发展为语料库的产生奠定了物质基础。建立语料库需要有庞大的数据积累,存储能力和检索能力至关重要,没有信息技术的支撑,仅凭人力很难对语言形成全面的认知,所以语料库的发展很大程度上受限于计算机技术。

根据计算机技术的发展,我们将语料库计算机化以前的语料库称为传统语料库,将计算机化以后的语料库称为现代语料库。

传统语料库

计算机化以前的传统语料库主要有以下三种用途:

1. 为词典编撰、语法研究而收集的语料库

牛津英语词典(Oxford English Dictionary):1928 年引证 400 万条卡片 1100 万张韦伯斯特新国际词典(Webster's New International Dictionary):1961 年第三版新旧引证 1000 多万条。

2. 为教学目的而编制的书面语料库和词表

陈鹤琴《语体文应用字汇》,商务印书馆,1928 年。做过两次统计,第一次统计使用了六种材料,包含 554,478 个汉字的语料,得出不同汉字 4261 个;各类型文本字数统计结果如下:

材料类型

字数统计

儿童用书

127,293字

报刊(以通俗报刊为主)

153,344字

妇女杂志

90,142字

小学生课外作品

51,807字

古今小说

71,267字

杂志

60,625字

第二次使用包含 34,818 个汉字的语料,得出与 4261 个汉字相异的汉字 458 个。

3. 为语言调查而收集的方言库

19、20 世纪英、美等国都做过大型的方言调查,调查的结果形成几个大规模的方言库;在我国,运用语料的研究方法可以追溯到周秦,如我国汉语方言学的第一部著作《輶轩使者绝代语释别国方言》是扬雄经过 27 年的艰苦努力而写成的。

现代语料库

计算机化以后的现代语料库大体上可以分为四个时期:

第一代语料库(1970 - 80年代)

第二代语料库(1980 - 90年代)

第三代语料库(1990年代 - 至今)

第一代语料库(1970 - 80年代)

(▲来源:詹卫东教授PPT)

1. 布朗语料库

1961 年,弗朗西斯( N. Francis)和库塞拉( H. Kucera)为首的一批语言学家和计算机专家汇集在美国的布朗大学,合作建成了世界上最早的机读语料库,即布朗语料库( Brown Corpus) 。主要代表当代美国英语,规模 100 万词次,是世界上第一个根据系统性原则采集样本的标准语料库,其采用的标准成为后来语料库建设所必须遵循的规范之一。

2. LOB 语料库

始建于 1970 年代初,由英国 Lancaster 大学著名语言学家Geofferey Lech 倡议,挪威 Oslo 大学 Stig Johansson 主持完成。LOB 语料库(The Lancaster-Oslo/Bergen Corpus)规模与 Brown 语料库相当,主要反映当代英国英语,安装在挪威 Bergen 大学挪威人文科学计算中心。

3. LLC 语料库

LLC 语料库是世界上第一个口语语料库,建成于1975年。由于当时计算机无法处理多媒体资源,斯沃特威克(Svartvik)与他在隆德大学的同事将 SEU 语料库中的口语部分转变为计算机可读的文本形式,共收集了 2000 小时的谈话和广播等口语素材,最后建立了“伦敦—隆德英语口语语料库”(London-Lund Corpus of Spoken English),简称 LLC 语料库。

第二代语料库(1980 - 90年代)

(▲来源:詹卫东教授PPT)

第二代语料库进入了更大规模的发展,以下是具有代表性的语料库:

1. COBUILD语料库

(Collins Birmingham University International Language Database)

2. 英国国家语料库

(British National Corpus,简称 BNC 语料库)

3. 国际英语语料库

International Corpus of English

4. 朗文语料库

(Longman Corpus Network)

其中最具代表性的是 Cobuild 语料库和朗文语料库。

(▲柯林斯词典)

Cobuild 语料库建立的目的是为了编纂《柯林斯英语词典》,使用语料库编纂词典的好处在于可以根据义项的使用频率对其进行排列,这样读者在查询单词时往往能在前几个义项中找到自己所需的词义。

(▲朗文词典)

朗文语料库是一个商用语料库,由三个大的语料库组成,分别是朗文/兰凯斯特英语语料库(Longman/Lancaster English Language Corpus, 简称LLEIC语料库)、朗文口语语料库(Longman Spoken Corpus, 即 LSC 语料库)、朗文英语学习者语料库(Longman Corpus of Learners’ En glish,即 LCLE 语料库),主要目标之一是编纂英语学习词典, 为外国人学习英语服务,规模达到5000万词级。

第三代语料库(1990 - 至今)

(▲来源:詹卫东教授PPT)

第三代语料库进入了超大规模发展,具有以下特点:

1. 数量:从百万级到千万级再到亿级和万亿级。

2. 语料:从单语种到多语种。

3. 加工:从词法级到句法级再到语义和语用级,标注深度逐渐加深。

4. 文本:从抽样到全文。

以下是具有代表性的语料库:

1. ACL/DCI语料库

美国计算语言学学会(ACL)倡议的数据采集计划(Data Collection Initiative,DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言 SGML 统一置标,以便于数据交换。

2. Upenn树库

美国宾夕法尼亚大学 1980 年代末开始发起,由该校计算机系 M.Marcus 主持,于 1993 年完成了对近 300 万英语词的句子语法。2000 年发布中文树库(第一版),共计 10 万词,4185 个句子,325 数据文件(新华社语料)。2004 年发布中文树库 4.0 版,共计 404,156 词, 664,633 汉字, 15,162 句子, 和 838 数据文件(大陆香港台湾语料)。

(▲来源:詹卫东教授PPT)

3. LDC

语言资源联盟(Linguistic Data Consortium,简称LDC)于 1992 年在美国宾夕法尼亚大学建立,它的目的是构建、 收集和发布用于研发的语音和文本数据库、 词典以及其他资源。该联盟实行会员制,有 163 个语料库 (包括文本和口语),共享语言资源。

LDC 官网网址:

国内语料库建设

在计算机发展早期,当时的技术无法对中文进行很好处理,导致中文语料库没有和英文语料库一样蓬勃发展起来。70年代末80年代初,计算机才真正能够用来处理汉字,当汉字在计算机中能够进行初步处理之后,国内的语料库才逐步发展起来。

下面是中国早期建设的一些语料库:

(▲来源:俞敬松教授PPT)

(▲来源:俞敬松教授PPT)

更多中文语料库介绍详见冯志伟教授论文:

(▲中国语料库的研究与历史现状.pdf)

(三)语料库的分类

冯志伟教授对语料库划分比较有影响力且在学术上认可度比较高:

按语料选取的时间划分

▶历时语料库(diachronic corpus)

▶共时语料库(syn-chronic corpus)

按语料的加工深度划分

▶标注语料库(annotated corpus)

▶非标注语料库(non-annotated corpus)

按语料库的结构划分

▶平衡结构语料库(balance structure corpus)

语言各种形态、各类体裁、各时间段平衡

▶自然随机结构的语料库(random structure corpus)

按语料库的用途划分

▶通用语料库(general corpus)

▶专用语料库(specialized corpus)

按语料库的表达形式划分

▶口语语料库(spoken corpus)

▶文本语料库(text corpus)

按语料库中语料的语种划分

▶单语种语料库(monolingual corpus)

▶多语种语料库(multilingual corpus)

▷比较语料库(comparable corpus)

比较语料库目的侧重于特定语言现象的对比

▷ 平行语料库(parallel corpus)

平行语料库目的侧重于获取对应的翻译实例

按语料库的动态更新程度划分

▶参考语料库(reference corpus)

参照语料库也称静态语料库,一旦建成,就不再改变其结构和内容。

▶监控语料库(monitor corpus)

监控语料库也称动态语料库,需要不断地更新以反映现代语言的变迁。

//

未完待续

下期推送将为大家带来语料库在翻译实践中的运用、常用语料库推荐及语料库的优缺点介绍,敬请期待。

主要参考文献

1. 网络传播杂志,

2. 冯志伟,中国语料库的研究与历史现状,Journal of Chinese Language and Computing

3. 俞敬松,计算机辅助翻译原理与实践,

4. 詹卫东,语料库,-

5. 邹煜,

关注微信公众号“语言服务行业”,“翻译技术教育与研究”,了解更多语言服务行业与翻译技术相关的资讯和洞察~

标签: #ldc语言