93
语料库语言学
2016年
第3卷
第1期
大数据背景下
BCC
语料库的
研制
北京语言大学
荀恩东
饶高琦
热心的黑米
臧娇娇
提要:
“北京语言大学语料库中心
BLCU Corpus Center
,简称
BCC
)
”是以汉语为主、
兼有其他语种的在线语料库。
BCC
总规模达数百亿字,是服务语言本体研究和语言应用研
究的在线大数据系统。
BCC
检索式由字、词和语法标记等单元组成,并且支持通配符和离
合查询。本文将概述
BCC
的总体情况,包括语料库建设情况和检索引擎开发等,重点介绍
BCC
形式化检索语言和在线系统的使用方法。
关键词:
BCC
语料库、大数据、语言检索、检索式
一、引言
在大数据背景下,语言本体研究、语言教学和语言应用研究都离不开语料库
的支持。在语言本体研究中,利用大规模语料,对语言现象进行穷尽式考察,可
以归纳、完善、验证语言理论或观点,又可以通过实证方法,为语言理论的研究
提供数据支撑和量化分析;在语言教学中,语料库可以提供真实的语言素材,用
于教学内容制定和讲解,使语言教学内容选取和教学实施过程更加科学,并可以
支撑辞书和教材的编纂;同时,语料库作为模型训练知识库,在语言信息处理各
种应用中起着不可或缺的作用。
采用语料库进行实证研究历史悠久,国内外一系列语料库系统推动了语言研究
的进步和发展。中文语料库方面,有“国家语委语料库”
、
“北京大学现代古代)
汉语语料库”
、
“中国台湾中央研究院语料库”
、
“兰卡斯特汉语语料库”等;在英
语语料库方面,有“英国国家语料库
BNC
)
”
、
“美国当代英语语料库
COCA
)
”
等。语料库发展到今天,出现了新的特点和需求:
1
)语料库规模越来越大,逐渐进入大数据时代。随着信息社会的发展,个人
微机的迅猛发展和存储数据的硬盘造价持续下降,使得能够记录语言生活的终端
设备越来越普及,数据存储能力越来越强,网络传输速度越来越快,每天产生的
语料数量大大超过以往。这些发展都为大规模语料库的采集提供了技术支持。
2
)语料库成为语言技术进步的知识库。在语言大数据基础上,语言应用技术
快速发展,人工智能在多个应用领域取得突破性进展。这些新技术进步,正在改