第二节 外国学生错字别字数据库创建17

一 建立“外国学生错字别字数据库”的重要意义

汉语作为第二语言的汉字教学研究,是近20多年来对外汉语研究最活跃的领域之一,已经取得了丰富的实践经验和研究成果。特别是近年来,国内学者一方面开掘汉字理论资源,探索汉字构形理论、谐声规则、字族学说等在对外汉字教学中的应用价值,一方面不断借鉴国外的现代语言学理论,利用第二语言教学、语言习得与认知、语言测试等领域的学术成果,研究外国学生的汉字习得过程与顺序,分析不同母语类型的外国学生汉字习得的差异性,编写并修订汉字教学大纲,改革汉字水平测试的内容和方法。在国外,汉字教学与研究也得到空前的重视和发展,关于汉字的构形规则与书写方式的研究,关于形声字声符的功能及其在教学中的应用价值的研究,关于“字本位”教学的研究,都取得了很好的成果。

然而,由于汉字属于表意文字体系,性质独特,尤其是在基本字符、结构规则、书写方式等方面都不同于表音文字,更没有现成的第二语言文字教学理论可资借鉴,所以,对外汉字教学与研究的难度很大,在探索的深度与广度上都落后于汉语作为第二语言的语音研究、语法研究和词汇研究,研究手段和方法不够成熟,研究成果尚未形成科学体系。在语料的搜索和整理方面,虽然有些教师和学者根据教学或专项研究的需要,对外国学生的汉字表现进行测查和分析,但是,各取所需的分散作业,所采集的语料数量有限,不成规模,因而难以从中提炼出重要的学术成果,更无法满足全面而系统的理论探索的开发应用的需要。这种状况,不仅影响对外汉语教学的理论创新,而且制约着对外汉语教学质量和教学水平的提高。因此,面对世界上“汉语热”的持续升温,学术界痛心地把对外汉语教学理论和教学方法的落后比喻为限制对外汉语教学水平提高的“瓶颈”。

对外汉语教学研究的难点和重点在哪里?“汉语难学,汉字更难学”“汉字识读难,书写更难”,都是长期以来困扰外国人学汉语的普遍问题和流行观念。因此,对外汉字教学研究自然就成为汉语作为第二语言研究的难点和重点之一。外国人学汉语过程中出现的错字别字,应该是对外汉字教学研究的重要内容。对外汉字教学的重心与突破点在哪里?众所周知,大型语言数据库、语料库的建立以及基于它们的专题研究,是近年来国内外语言研究的新潮流之一。数据库和语料库为语言现象测查和定量研究提供了相当可靠而便捷的条件,大量的数据信息和语料使研究成果更为客观,更具应用价值。根据语言学发展的历史规律和现代语言学的实践经验,大规模的语料搜集与整理是重大课题突破的基础与重大创新成果出现的前奏。因此,建立“外国学生错字别字数据库”(以下简称“数据库”),是为对外汉字教学研究取得重大突破和重大创新成果构建一个资源丰富的学术平台。

把数据库和语料库的理论方法引入对外汉字教学研究,必然会使研究方法和研究手段更加丰富有效,更加科学、便捷。一个能够给出大量可靠的数据,同时提供大量原始文字资料和文本的数据库,不仅会在数据和语料采集方面给研究者以极大方便,节省大量的时间和精力,而且能够有效克服一次性小规模采样可能产生的研究结果的片面性和主观性,大幅整体提升对外汉字教学研究的学术水平和学术地位。

基于数据库的对外汉字教学研究,将在大量测查和分析真实语料的基础上发现一些重大课题,找到研究重心和突破点,拓展新的研究领域。一些长期以来无法突破或无法深入开展的重大课题,如果得到数据库的全方位支持,也能够顺利完成,并取得重大创新成果。例如:汉语作为第二语言的汉字习得比较研究已经开展多年,但迄今尚未取得预期的成果,其主要原因之一就是缺乏数据库和语料库的支持。一个能够集中反映外国学生错字别字现象的数据库,可以为多方位的比较研究提供大量可靠的数据和信息。通过对母语背景不同的学生的汉字表现进行大规模的测查和调研,比较分析外国学生在汉字习得过程中的共性和个性,发现普遍规律和特殊规律,就可以创立根据外国学生不同的语言文化背景而“因材施教”的教学模式,发展并完善实用的对外汉字教学理论。认知心理学家研究外国人学汉字,往往是通过实验进行的。近年来这方面的研究进展很快,成果颇丰。一个能够集中反映外国学生错字别字现象的数据库,将有助于汉字习得与认知研究从一个新视角观察并获取大量文本真实的数据和语料,深入开展实验研究与理论研究。由此获取的研究成果,再用于指导汉字教学,降低产生错字别字的概率,以形成理论研究与教学实践的良性互动,不断提高理论水平和教学水平,向汉字认知和汉字教学的自由王国迈进。

随着“汉语热”在全世界不断“升温”,近年来对外汉语教材的出版事业蓬勃发展,每年出版教材的品类数以百计。一个能够集中反映外国学生错字别字现象的数据库,能够在外国人学汉字的难点和重点、习得过程与顺序、不同母语者的学习差异等方面为教学大纲的编制与修订提供重要信息或参考数据。

汉语水平考试是最近几年对外汉语教学事业发展最快的领域之一。把由数据库测出的汉字习得难度作为划分汉字水平等级、设计试题内容、确定评分标准的重要参考依据之一,可以在一定程度上避免汉字水平考试大纲和考试内容设计上出现盲目性与片面性,以保证测试内容的信度与效度,保证测试结果的科学性与公正性。

“字本位”教学的理论探索和实验研究,也是近年来对外汉语研究的热点之一。通过集中反映外国学生错字别字现象的数据库,可以方便快捷地测出对外汉字教学的难点和重点,提取有关汉字习得的各种数据和信息。这些数据和信息,不仅能够推动“字本位”教学理论研究的深入开展,而且有助于教师设计实验方案和教程,采用有效的教学方法和手段,有针对性地开展教学活动,切实提高对外汉语教学的科学性和规范性,提高对外汉语教学的效率和水平。

二 建立“数据库”的目标

建立“数据库”的总体目标,是设计研制一个客观反映外国学生在汉字学习过程中出现的错字别字现象的数据库,为对外汉字教学的各项专题研究,特别是重大课题的研究,提供一个以大量真实文本和原始字形为基础的数据系统和信息平台。本课题拟建的数据库将采集不同母语背景和不同学习阶段的外国学生的书面语料400万字以上,对语料的各种属性、语料中的错字别字及其他不规范现象进行完备的计算机处理,可以根据不同条件和要求对错字别字的各种数据和相关信息进行便捷的机器检索和提取。

拟建立的“数据库”将具备以下四个方面的基本特征。

1.语料内容系统,数量充足,分布均衡。第一,语料的采集从零起点开始,一直到高水平阶段,外国学生学习和习得汉字过程中各个阶段的汉字书面材料都是我们采集的对象。第二,语料来源于各种各样的学生,他们具有互补的社会属性(如国籍、民族)、语言背景(如第一语言、外语)和个人特征(如年龄、性别、学习动机)。入库的语料样本将综合考虑各种属性背景因素和话题内容的选择情况,合理计算不同属性和话题的语料入库比例,力求做到选样科学,散布均衡,具有代表性和典型性。第三,跟踪调查一定数量的特定学生对象,对其在不同水平阶段的汉字书面语言表现进行完备的记录。建成的数据库,其错字别字库将容纳外国学生的错字别字8万个以上,其样本库将容纳外国学生的书面语语料样本400万字以上。这样信息丰富完备的数据库,既可以纵向研究外国学生汉字习得过程的动态轨迹,又可以横向研究整个习得过程中某一特定阶段的静态情况;既可以针对一般学生进行规模研究,也可以针对特定学生进行个案研究。

2.信息完备,加工细致。采集入库的语料来源于外国学生的作文考卷、作文练习、读后写或听后写和回答问题作业。错字别字及其他不规范用字都保留了原始面貌(用扫描技术再现),同时完备记录语料及其作者的背景情况。数据库还提供每一个入库的错字别字或其他不规范用字的原始语料编号索引。

3.用户界面友好,检索方便。由于要对错字别字和语料属性、作者属性等项目进行全面细致的处理,并设计相应的计算机检索系统,所以数据库将具备快捷灵活的全方位检索机制,对各类用户都保持友好的操作界面。

4.软件系统具有充分的开放性和可维护性。利用系统中的关系数据库处理模型,可以随时分析处理新的语料,使其容量得以扩充。语料的标注和检索系统也可以随时增删修改。

三 “数据库”的结构和技术处理

“数据库”主要包括样本库模块、数据库模块和用户功能模块三部分。

1.样本库模块用于存放语料库的电子样本,语料经过选择和确认,把在背景属性和话题选择上符合典型性和代表性等要求的语料输入计算机,成为语料库中的原始语料样本。原始语料样本库在本数据库的作用有三个方面:一是为用户提供错字别字出现的原文语境,二是为语料学时等级的测定提供数据基础,三是为用户检索字使用及错字别字出现频率提供数据基础。

2.数据库模块又具体包括语料属性库、作者属性库、汉字信息库和错字别字信息库。

(1)语料属性库用于存放通过“语料属性登录”进来的样本属性。语料属性库的字段有10个,它们是:语料篇号、作者姓名、母语背景、语料类型、文章题目、写作时间、提供者、语料字数、学时等级、标注者性别。主关键字段为“语料篇号”,并通过“作者姓名”字段与作者属性库相链接。

(2)设计上把语料属性库和作者属性库分开。出发点主要有两个,一是尽量减少同一库中的重复信息,提高使用数据库时的检索速度;二是考虑到有些研究者是做个案或跟踪班错字别字分析的,把语料属性库和作者属性库分开可以使信息检索更方便和专业。作者属性库标注10个字段,它们是:作者ID号、作者姓名、年龄、国别、是否华裔、第一语言、熟悉的其他外语、文化程度、写作语料时所在的学校、写作时所在年级。其中“作者ID号”字段为主关键字,并通过“作者姓名”字段与语料属性库进行关系链接。

(3)汉字信息库用来存放常用汉字的相关信息。字库的大小为包含HSK大纲要求(2905字)的常用字共4270字,涵盖了语料中可能出现的所有用字。该库所具备的信息非常具体地反映了汉字本身特点的一些数据,有9个字段:字编号、正字、笔画数、部件数、结构类型、频率、HSK等级、在母语小学阶段出现次序、难易等级,为研究汉语中具备什么特点的字容易偏误提供线索。该库的建立需要借助其他学者的相关研究成果。

(4)错字别字信息库是本数据库系统的主数据库,包括语料样本中规范用字和非规范用字的全部数据信息。主要字段有7个:错字别字序号、正字、错字别字原形、别字上下文、二次标注、语料篇号、错字别字文中位置。其中“错字别字序号”为唯一识别的主关键字段,通过“语料篇号”与语料属性库链接。这里我们预留了空字段“二次标注”是为今后研究者进一步对错字别字分类提供方便。

3.用户功能模块是检索、统计和提取数据库中各种数据和信息的一个综合机制。这部分模块是面向用户的,它可以根据用户的需要,灵活地输出语料中错字别字的各种数据,为用户的研究服务;可以生成学生的各种非规范字使用情况表,进行字频、字次的数据统计;查找错别字或其他非规范字的出处,进行字形结构分析;等等。该模块需要借助北京语言大学宋柔教授主持开发的CCRL检索工具系统进行设计,其中对语料样本电子版的要求是:以【1,n】〖1,n〗(1,n)等符号分别表示错字别字及其他不规范字,括号内的数字为错字别字在文中的位置序号及同一作者在同一篇语料中对同一字累计的错误数量,这种形式可以解决CCRL检索系统对语料纯文本形式的要求。

课题研发与数据库建设流程包括总体设计、语料收集及属性库建设、汉字信息库建设、电子样本库建设、错字别字预处理与字库建设、用户功能模块建设等环节。其中语料收集及属性库建设环节需要确定语料收集的途径及标准、语料属性和作者属性标注及校对、语料筛选和取样及建立语料属性库和作者属性库(链接到范例)。错字别字预处理与字库建设环节需要确定错字别字标注的标准、错字别字标注及校对、错字别字扫描并登录及建立错字别字字库等(见图2-1)。

图2-1 “数据库”设计开发流程图

四 基于数据库的外国学生错字别字类型、频率与分布研究

在“数据库”的基础上,我们将有条件全面开展基于数据库的外国学生错字别字类型、频率与分布等方面的系统研究。

(一)关于外国学生的错字别字研究

预计“数据库”收集的错字别字总量大约在8万个。如此大容量的库存将远远超过此前同类研究人工收集的错字别字数量。错字的分类标准方面,独体字主要依据笔画的错误分类,合体字或依据组字字符的错误分类或依据结构方式的错误分类。分类的对象范围,可以是某个字的各种错字,可以是某类字的各种错字,也可以是全部常用字的各种错字;可以是某个学生的各种错字,可以是某类学生的各种错字,也可以是提供语料的全体学生的各种错字;可以是学生在学汉字的初级阶段写的各种错字,也可以是学生在学汉字的高级阶段写的各种错字。别字的分类以致误原因为标准,分为形近致误和音同音近致误两类。在分类对象范围的变化上,别字与错字相同。上述各种标准和不同对象的错字别字分类,都可以从拟建的“数据库”中提取充足的数据和信息,所得成果综合起来,可以加工编成“外国学生错字别字类型表”。数据库中的全部错字别字都按照归纳的类型安排在表中,所以表上不仅显示每个错字别字的类型,而且显示一个字会出现哪些类型的错字别字。比较而言,测出一个字可能出现哪些类型的错误,对于对外汉字教学更具实用价值。

(二)关于外国学生错字别字的频率研究

考察外国学生学习和习得汉字的过程我们不难发现,每个人都不可避免地写错字或别字,绝大多数常用汉字都有人写错字或别字。在学习汉字的初级阶段,学生的汉字学时等级比较低,笔画和组字字符往往写不规范,常常出错。又由于识字较少,写别字的频率低。而到了学习汉字的高级阶段,学生的汉字学时等级逐渐提高,错字也随之减少。又由于识字较多,形近字和音近音同字互相干扰,写别字的频率有所上升。因此,关于外国学生错字别字频率的研究,首先需要计算外国学生在不同学习阶段写错字别字的频率,其次需要计算出常用汉字在外国学生不同的学习阶段写成错字别字的频率,最后需要计算出各种类型错字别字的出现频率。拟建的“数据库”中的错字别字库,规模宏大,类型完备,可以为上述三种频率研究提供丰富的信息资料。综合这三种频率研究的成果,可加工编成“外国学生错字别字频率表”。表中那些出错频率高的字,那些出错率高的错误类型,将是我们一直在寻找而难以窥其全貌的对外汉字教学与研究的重点和难点。

(三)关于外国学生错字别字分布的研究

外国学生学习和习得汉字的差异,主要表现在两个方面:

一方面是因为母语文字和文化背景不同而产生的差异。一般说来,汉字文化圈和非汉字文化圈的外国学生对汉字的认知不尽相同。非汉字文化圈的欧美各国和其他一些国家现行拼音文字,来自这些国家的学生对汉字的隔膜较大,因而他们学写汉字的出错率要比同等学力的日本、韩国等汉字文化圈内国家的学生高。而在汉字文化圈内,日本、韩国、东南亚各国受汉字影响的历史和程度不同,对汉字的认知也不相同。因此,以母语文字和文化背景为标准,我们拟将外国学生分为四类:欧美各国与其他拼音文字国家的学生、日本学生、韩国学生和东南亚各国学生。比如日本现行文字中的当用汉字,其中一部分与我国的现行简化汉字形体完全相同,给日本学生学写汉字带来很大方便;另一部分与我国现行简化汉字形近,又给日本学生学写汉字带来不少麻烦。

另一方面,在不同学习阶段和不同学时等级上,外国学生写错字别字的频率、类型都存在差异。以汉字的学时等级为标准,我们拟将外国学生学习和习得汉字的过程分为初级和高级两个阶段。拟建的“数据库”中的作者属性库,可以从中提取作者母语文字和文化背景的信息;错字别字信息库中,可以提取作者写了哪些错字别字及其错误频率。综合从数据库中提取的信息资料加工分类,可编成“外国学生错字别字分布表”。表中显示每一个错字和别字在不同母语文字和文化背景的学生中的分布状态,以及每个学生的不同学习阶段的分布状态,实际上就是外国学生学习和习得汉字差异性的直观反映。

五 结语

“数据库”课题的研发工作已进行了将近两年。总体设计、语料采集与标注、语料扫描入计算机等前期工作完成后,我们建立了作者属性库、语料数据库、正字信息库。目前在研的错字别字库,分为欧美各国与其他拼音文字国家、日本、韩国、东南亚四个部分进行。我们期待着国内外学术同人的指导和帮助,尤其希望国外从事对外汉语教学与研究的学者,能够把学生写汉字的各种语料提供给我们,这些语料对我们来说是非常宝贵的。我们的数据库将对提供一定数量语料的教师开放。我们还将把关于特定国家学习者的所有语料综合在一起,用于开发特定国家学习者的专门数据库。我们真诚企盼着这样愉快的合作。