- 汉语作为第二语言教学的教学资源研究
- 郑艳群主编
- 7896字
- 2022-07-22 16:19:39
第二章 汉语教学各级各类资源库创建研究
第一节 全球汉语中介语语料库创建1
汉语中介语语料库极大地推动了对外汉语教学的相关研究。近年来,越来越多的学者加入到汉语中介语语料库建设中来,逐渐形成一个建设高潮。汉语中介语语料库建设正处于一个蓬勃发展的关键时期,同时也是一个建设极不规范的时期。现有的语料库还存在诸多问题,尚不能满足教学与相关研究的多方面需求。关于语料库建设方面的学术探讨还比较薄弱,许多理论问题尚未解决。仅凭研究者个人的语言学知识与研究经验难以建设高水平、有创新性的语料库,因而特别需要对语料库建设的相关理论问题进行广泛而深入的探讨。
针对语料库建设的现状,我们设计了“全球汉语中介语语料库建设和研究”课题,希望以此进一步推动语料库的建设与发展,充分满足汉语教学与相关研究的需要,全心全意地为全世界的汉语教学与研究服务。
本节所谓语料库如无特别说明,均指汉语中介语语料库。
一 汉语中介语语料库建设的特点与问题
(一)特点
近年来,语料库建设不断向纵深发展,呈现出一些新的特点。
1. 口语语料库的建设渐成热点。以前的语料库多为作文语料库,已建成的口语中介语语料库只有北京语言大学的“汉语学习者口语语料库”和暨南大学华文学院的留学生口语语料库,两者均为生语料库,使用价值有限。目前,北京语言大学正在筹建“HSK动态口语语料库”2。此外,香港中文大学正在建设“语言习得汉语口语语料库(LAC/SC)”3,苏州大学正在建设“小型外国学生口语中介语语料库”4。
2. 多模态语料库的建设提上日程。例如南京师范大学“开始进行外国学生多模态口语语料的收集工作”5。“全球汉语中介语语料库”的设计中也包括多模态子库。
3. 在多国别、多母语背景汉语学习者的语料库之外,出现了单国别、单母语背景学习者的中介语语料库,例如鲁东大学正在建设“韩国留学生汉语中介语语料库”。
4. 在对外汉语教学领域的中介语语料库建设的影响与推动下,国内少数民族的汉语中介语语料库建设也已经开始。例如新疆大学正在建设维吾尔族学生的汉语中介语语料库。
5. 汉语中介语语料库的建设是在国外语料库语言学的发展和国内外母语语料库建设的影响下开始和发展起来的,但其主阵地始终在国内。作为一种学术“反哺”,中国国内的汉语中介语语料库建设已经开始影响到国外。例如美国夏威夷大学马诺阿分校有教师在建设自己的语料库;哥伦比亚大学也准备建设语料库。
6. 对语料标注模式的研究逐渐深入。语料标注已从普遍的偏误标注向“偏误标注+基础标注”的模式发展;研究内容已从单纯的标注内容发展到对标注原则、标注内容、标注方法、标注代码、标注流程等的全面探讨。6在标注方法方面,荀恩东提出了“基于Web的语料协同标注平台”设想,7并正在研发这一系统。
(二)问题
目前语料库建设存在的主要问题如下:
1. 整体设计水平不高。大多数语料库的建设规模一般从几十万字到几百万字不等,且以百万字左右者居多;标注内容多局限于偏误标注,有的只标注错别字和少数几个句式。总体来看,在设计理念上并无实质性突破。
2. 发展不平衡。现有语料库绝大多数都是书面语语料库,口语语料库很少,多模态语料库更少,且尚无建成者。
3. 语料库建设的本体研究缺乏。对汉语中介语语料库建设相关问题的理论探讨属于该领域的本体研究,它对语料库建设的重要性是不言而喻的。然而,近20年来,语料库的建设者们多是根据自己的语言学知识与研究经验采取一些操作性的办法来处理语料库建设中的相关问题,深入的本体研究非常缺乏。一个重要表现就是语料库建设至今尚无统一的建设标准、标注规范,也无汉语中介语的分词规范与专用词表。在此情况下,语料库建设难以有大的突破。
4. 缺乏语言学本体研究的有力支持。在现有语料库中,语篇、语体标注十分薄弱,且只见于个别语料库;语义、语用、交际文化因素的标注尚付阙如。一个主要原因是这些方面的本体研究不够,难以为语料库建设提供有力支持,如交际文化因素究竟有多少个点、项,就不易说清楚。
5. 大多数语料库建成后并不对外开放,未能充分发挥其应有的作用。
6. 现有的汉语中介语语料库不能满足汉语教学与相关研究的多方面需要。例如“HSK动态作文语料库”可以满足偏误研究的需求,却无法满足表现分析的需求;可以考察中高级阶段汉语学习者的习得情况,却无法了解初级阶段汉语学习者的习得情况。迄今为止,所有的语料库都不能满足对外汉语教学中语义、语用、修辞、交际文化因素的研究需求。
(三)对策
针对汉语中介语语料库建设中存在的诸多问题,应加大力度,促进语料库建设的深入发展。其主要原因如下:
1. 语料库的数量很少。虽然,汉语中介语语料库的建设已经得到很大的发展与长足的进步,但是还不能满足教学与研究的诸多需求,不仅建设水平有待提高,语料库的数量也远远不够。与供语言学研究使用的汉语母语语料库、少数民族语料库以及英语语料库相比,汉语中介语语料库的建设还非常落后。以国家社科基金的立项情况来看,在国家科研管理部门的重视与影响下,在课题指南的指导与推动下,8各类汉语母语语料库、少数民族语言语料库、外语语料库的建设项目与基于语料库的相关研究项目从2002—2004年的合计7项,增长到 2005—2012年的合计108项;在全部语言学项目中所占比例由2002—2004年的4.09% 提升到2005—2012年的10.23%。相比之下,同期汉语中介语语料库方面的项目仅2011年立项数目略多(达到5项)。除此之外,每年或者没有,或者只有1项或2项,变化甚微。
从“其成果代表我国重大理论问题和实践问题的研究方向”的“作为目前我国唯一的国家级科研基金项目”的国家社科基金 项目9的层次上看,汉语中介语语料库的立项课题比例平均仅为语言学立项课题的1%左右。从应用的角度看,语料库建设还不能满足教学与研究的实际需要。因此,汉语中介语语料库的建设急需加强。
2. 语料库建设水平不高。首先,语料库建设没有考虑到教学的某些急需,标注内容不全面,因而不能很好地为教学服务。例如,“在语法教学中应加强语体知识的教学和语体技能的训练,如口语和书面语词汇、语法及其语用特征的教学、语体要素的辨认、口语和书面语各自内部的再分类及其教学、不同语体的转换训练等等;在各类语法大纲的制定中要充分体现语法项目(包括词汇、惯用语、句式、格式等)的语体属性”10。因此,在语料标注时就应有语体标注。既然“在实际教学中也常发现与修辞相关的偏误”11,为了考察与研究外国汉语学习者对汉语修辞的习得情况,辞格标注也就必不可少。然而在语料库的建设实践中,尚未进行辞格标注;语体标注虽有一些,但非常简略,难以满足教学与研究需要。
其次,现有语料库存在一些不足与缺陷,不能满足相关研究的需要。以“HSK动态作文语料库”为例,其语料存在不全面性,只能对学生的汉语习得情况进行横向的断面考察,而无法进行纵向的习得过程研究;标注内容只有偏误标注,只能进行偏误分析,而无法进行表现分析。12
二 关于“全球汉语中介语语料库建设和研究”
(一)课题简介
本课题是我们于2012年9月提出的、由北京语言大学崔希亮教授担任首席专家的2012年教育部哲学社会科学研究重大课题攻关项目。我们试图通过本课题的实施来推动汉语中介语语料库的建设,落实我们的相关认识,实现我们的学术主张。
本课题有三个非常重要的关键词,集中体现了其基本特征。
1. 全球。所谓“全球”有三重含义:一是语料来自全球,课题欢迎海内外所有面向外国学习者的汉语教学单位把所收集的汉语中介语语料提供给本课题;二是全球共建,课题诚邀全世界的汉语教师和研究人员参加本课题的建设;三是全球共享,语料库建成后将向世界各国的汉语教师、研究人员、汉语学习者乃至对汉语感兴趣的其他各界人士免费开放,实现最充分的资源共享,全心全意地为全球的汉语教学和研究服务。
关于资源共享,目前情况很不乐观。绝大多数语料库建成后都不向学界开放。其结果是:一方面许多人想用却没法用,另一方面语料库的使用率并不高。13这是非常可惜的,因为语料库并非供人观赏的艺术品,而是供人使用的工具,其价值与使用率应成正比。在相当长的时间里,只有“HSK动态作文语料库”向全世界免费开放。自2008年8月升级为1.1版后,该语料库取消了普通用户和高级用户的区别,所有登录者都可以免费浏览全部语料,并可以下载检索到的语料。今天该语料库的用户遍布世界各地,达两万多人,依据该语料库进行研究并已发表的学术论文达数百篇。作为该语料库的建设者,我们感到非常欣慰,因为我们通过自己的努力做了一项对学界有用的工作,为汉语的教学与研究贡献了我们的绵薄之力。我们高兴地看到,中山大学、暨南大学华文学院的语料库也已对外开放,这是学界在观念与实践上的巨大进步。全心全意地为全球的汉语教学和研究服务本来就是我们建设语料库的基本着眼点与根本目标,我们期待有越来越多的语料库向公众开放。
2. 建设。指本课题的基本目标,即建设一个最好最大的通用型汉语中介语语料库。其基本特征是:语料样本多,规模大,来源广,阶段全,背景信息完备;标注内容全面,标注质量优异;设计周密,功能完善,检索方便,响应快捷;能够反映各类外国汉语学习者的汉语学习过程与特征,可以满足汉语教学与相关研究的众多需求。14
3. 研究。第一个含义是指本课题将进行汉语中介语语料库建设的本体研究,以提高语料库建设水平。从目前情况看,汉语中介语语料库的本体研究至少可以包括下列内容:
1.语料库建设国家标准;
2.语料标注规范,包括标注原则、标注内容、标注方法、标注代码、标注流程;
3.口语语料和多模态语料的转写规则;
4.语料标注的标准化、通用化与自动化;
5.汉语中介语语料库建设专用分词规范与专用词表;
6.语料库建设模板与语料库建设自动化。
在本课题的研制过程中,我们将进行以下四个方面的本体研究:研制汉语中介语语料库建设标准;研制汉语中介语语料库语料标注规范;研制口语语料和多模态语料的转写规则;研制汉语中介语语料库建设用分词规范与专用词表。
第二个含义是加强汉语语言学理论本体研究,为语料库建设提供有力支持。从语料库建设的角度看,汉语本体研究急需解决下列问题:
1.复句与语段(或称句群、句组)的关系如何?复句的构成成分、结构关系与单句差异巨大,而与语段类同,能否据此从理论上把复句从句子层面移入语段层面?如果可以,将非常有利于语篇标注。
2.语义、语用、交际文化因素三者之间的关系如何?“老师,你媳妇儿漂亮吗?”究竟是因不明“媳妇儿”一词的不正式、不庄重的含义而导致的语义问题,还是因使用对象不当而导致的语用问题?“小张”可以儿化,“大张”“老张”不能儿化,这种差异是儿化韵的语义色彩造成的,还是儿化对象与使用场合等语用因素使然,抑或是尊老爱幼的传统文化因素在称呼语上的表现所致?
3.语篇与语用的关系如何?例如,指示语是语篇问题还是语用问题?
4.语体包括哪些内容?
5.交际文化因素包括哪些内容?有哪些点、项?
(二)建设与研究方式
1. 合作共建,方式多样。以往语料库建设多采取“一家一户”的个体生产方式,既不吸纳别人的研究成果、实践经验和语料,也不贡献自己的研究成果、实践经验和语料。这种情况对语料库的建设和发展极为不利。15本课题将彻底打破这种个体生产方式,采用海内外汉语学界合作共建的方式,即由海内外所有对此课题感兴趣并愿意参与的汉语教学单位共同建设。所有共建单位的名称和参加者的姓名及其所承担的具体工作都将在语料库和相关文件中加以说明。合作方式根据各共建单位的具体情况可以有所不同,例如可以只提供语料,可以既提供语料又参加语料标注,可以参与或负责某一子库的建设,可以参与或负责语料库本体研究的某项内容。
2.人机配合,各用其长。即在语料库建设过程中,最大限度地发挥人和机器各自的优势。例如语料标注总体上以人工为主,但可以辅以计算机,以减少人工标注易于发生的标注代码不匹配的问题;分词和词性标注则以机器为主,人工检查与修改为辅。课题还将积极探索机器自动标注的方法。
3. 精心设计,先行实验。即研究与实验相结合,研究结果必经实验验证后方可实施。例如标注规范、分词规范及专用词表的研制,首先应进行文献调研与实地考察,全面分析其优势与不足,然后有针对性地设计出规范和词表;还要通过一定数量语料的实际标注来进行验证,确保具备充分的可行性后再推广应用。
4. 基于学习者背景分布的分层抽样。现有的汉语中介语语料库一般都是抽样语料库,追求语料分布的平衡性,并常常把“平衡”理解为各种背景的语料数量相等。而从汉语学习者及其语料的实际分布来看,韩、日、东南亚国家汉语学习者多,其产出的语料也多;欧美汉语学习者相对较少,其产出的语料也少。这是语料库建设中的突出问题,但也是汉语学习者国籍分布的现实情况,强求语料分布的“平衡”并不一定符合汉语国际教育的实际,也未必能满足汉语教学与相关研究的真实需求。本课题将以各种国籍背景的汉语学习者的实际人数作为分层的依据,确定各国汉语中介语语料的抽样比例。这种抽样方法显然更符合全球汉语教学的实际情况,这样建设的语料库最具代表性。
5. 基于Web的语料协同标注。以往“分包”式的语料标注方式及标注后的审查环节都由个体承担,标注结果依赖于标注者和审查者个人的知识、能力、工作态度与精神状态,标注的准确性与一致性难以保证。而“Web语料协同标注平台”基于“众包”理念,一名标注员在网络上进行标注工作,其他标注员乃至进入该平台的任何人都能看到其工作过程,并可以对其标注情况发表评论,提供意见,甚至动手修改或进行不同的标注,可以实现“人机互助”“人人互助”,进而大大提高标注的科学性与效率。
6. “搭积木式”的动态建设策略。以往的语料库建设模式是同时进行不同层面的标注,全部语料标注完成之后再集成上网,其结果是建设速度较慢,无法满足人们及时使用的需要。本课题拟采用的“搭积木式”的建设方式,将随着语料的增加,进行多次标注,每次只对一个层面的内容进行标注,因而会形成多版语料;每完成一版都会即时开放,供各界人士使用;最后通过技术手段,叠加各版语料和标注,形成一个总库。不仅可供大家尽早使用,而且最终将形成多个分库和一个总库,可以更好地满足使用者的不同需要。
在语料库分类方面,我们认为两种角度的分类最具概括性:一是语体角度的分类,即书面语语料库和口语语料库;二是用途角度的分类,即通用型语料库和专用型语料库。所谓“通用型语料库”指为满足多种研究目的而建的语料库,例如运用“HSK动态作文语料库”,可以进行汉语中介语字、词、句、篇、标点符号等各方面的研究;而“专用型语料库”则只为某种专门的研究目的服务,例如通过“汉语学习者汉字偏误数据资料库”只能进行中介汉字的研究。16
我们认为,通用型语料库和专用型语料库是汉语中介语语料库建设的两翼,它们都有非常重要的价值与意义。当前国外计算语言学的一个显著特点正是构造通用和专用的语料库(《2005—2008年度国家社会科学基金项目/课题指南》),我们的认识与这一趋势是完全相符的。
“搭积木式”的动态建设策略将在建设多个分库和一个总库的过程中,在一定程度上把通用型语料库和专用型语料库的建设统一起来,可谓一举两得,甚至多得。
(三)预期成果与用途
本课题的主要研究成果可以概括为“一库四标准”。
“一库”指本课题的建设部分,即“全球汉语中介语语料库”。其总体规模为5000万字,包括书面语子库、口语子库和多模态子库。该库建成后的基本用途如下:
1. 呈交教育部,供国内教育系统各级各类学校、科研院所进行汉语教学和相关研究时使用与参考。
2. 挂在北京语言大学校园网上,所有共建单位都可以在其单位的网页上建立链接,向全球各界人士免费开放,资源共享,为汉语教学与研究服务。具体包括如下几个方面:
第一,供世界各地的孔子学院作为教学参考,为汉语国际教育服务;第二,为国内面向外国人的汉语教学服务,可用于课堂教学、教材编写等;第三,为与汉语教学相关的科学研究服务,例如第二语言教学理论研究、汉语中介语研究、汉语作为第二语言的习得与教学研究、汉语水平考试研究、外向型汉语学习词典编纂等等。
此外,还可以以单机版形式出版发行,供用户离线浏览查询,提供更加方便的使用条件。
“四标准”指本课题的本体研究部分,即汉语中介语语料库建设标准、汉语中介语语料库标注规范、口语语料和多模态语料的转写规则、汉语中介语语料库建设用分词规范及专用词表。除用于支持“全球汉语中介语语料库”的建设之外,这些标准与规范还将报送国家标准化管理委员会,申报国家标准,以规范汉语中介语语料库的建设,提高语料库的建设水平。
(四)课题意义
1. 建设最好最大的汉语中介语语料库,为全球汉语教师、研究人员的教学与研究工作提供优质资源,为国家的语言政策服务。
汉语国际教育是目前我国基本的语言政策之一,对扩大我国的国际影响、提高我国的国际地位具有重大意义。面向外国人的汉语教学已经成为一个影响国家语言政策的重要因素。
以往的汉语教学与习得研究多为小样本、小规模的定性研究,其缺陷有二:一是观察到的中介语现象不全面,所得结论的普遍性、稳定性不强;二是难以对外国人学习汉语的实际情况做出准确的判断。本课题将为汉语教学与习得研究中的定量分析提供必要前提,促使面向外国人的汉语习得研究模式逐步向“基于大规模真实语料样本的、定量分析与定性分析相结合的实证性研究”转变,使学界对外国人汉语习得情况的认识更加全面、准确,进而促进对外汉语教学及与之相关的各项研究,为贯彻国家的语言政策服务。
2. 研究方式将极大地促进海内外汉语学界的学术交流与合作。
本课题的建设与研究方式是汉语中介语语料库建设的一个创举——与海内外汉语学界精诚合作,共襄盛举。语料来自世界各国的汉语教学单位,语料库建成后为全球的汉语教学与研究服务。这种建库方式必将极大地促进海内外汉语学界的学术交流、相互理解与合作,推动汉语国际教育事业的深化与拓展。
3. 本课题研制的汉语中介语语料库建设标准、标注规范、转写规则、分词规范与专用词表,将填补汉语中介语语料库建设的空白,极大地提高汉语中介语语料库的建设水平。
目前的汉语中介语语料库建设缺乏统一标准,建库实践带有很大的随意性,标注的内容、方法与代码各不相同,使用为母语语料库建设设计的分词规范与词表。这样建成的汉语中介语语料库在规模、功能、质量、用法等方面存在诸多局限,不能完全适应汉语教学与研究的需要,也不便于实现资源共享。
本课题将对汉语中介语语料库的建设原则、建库的程序与步骤、语料的类型与规模、标注的内容与方法、语料及其作者的背景信息、检索结果的呈现方式等基本问题,展开充分讨论,并在建库实践检验的基础上,制定一个能为学界普遍接受的语料库建设标准,研制出为汉语中介语语料库建设服务的标注规范、转写规则、分词规范和专用词表。这些研究成果将弥补汉语中介语语料库建设的空白,提高语料库的建设水平。
4. 本课题的研究成果对中文信息处理具有借鉴与参考价值。
本课题对汉语中介语中的字、词、短语、句、篇、语体、语义、语用、辞格的标注与相关研究成果,将为汉语相应信息的自动识别提供参考;数字笔和数字墨水技术的应用、语料自动标注等关键性技术问题的研究,对于中文信息处理具有启发和借鉴意义。
三 结语
汉语中介语语料库建设的历史虽然不长,但基于语料库的汉语教学与相关研究已充分证明了其巨大的实用性与学术价值。近年来语料库建设中呈现的新特点,孕育着语料库建设进一步深入发展的契机;“全球汉语中介语语料库建设和研究”课题的实施,必将带来语料库建设的全面创新与重大突破。我们期待有更多的教学科研单位与个人加入语料库的建设与研究工作。我们坚信,在海内外汉语学界的共同努力下,在“全球汉语中介语语料库建设和研究”课题的推动下,汉语中介语语料库建设必将得到更快的发展,在汉语的教学与相关研究中发挥更大的作用。