赵走x博客
网站访问量:151432
首页
书籍
软件
工具
古诗词
搜索
登录
16、算法部分源码解析
15、系统总体流程与词典结构
14、中文分词
13、词汇与分词技术
12、三个平面中的语义研究
11、汉语的发展
10、字形的流变
9、六书及其他
8、文字符号的起源
7、整合语义角色标注模块
6、整合句法解析模块
5、整合命名实体识别模块
4、整合词性标注模块
3、整合中文分词模块
2、现代自然语言系统简介
1、中文语言的机器处理:历史回顾
11、汉语的发展
资源编号:76134
NLP汉语自然语言处理原理与实践
自然语言处理
热度:90
自然界中,语言能力是人类独有的能力,只有人类才有语言,其他任何动物都不具备这种能力,而且多年的研究证明,其他动物也不可能具有这种能力。那么,语言是从何时被人类创造出来的呢?其最初的形式是什么样子的?为什么只有句子才能完整地表达语义?这些问题就显得至关重要了。
自然界中,语言能力是人类独有的能力,只有人类才有语言,其他任何动物都不具备这种能力,而且多年的研究证明,其他动物也不可能具有这种能力。那么,语言是从何时被人类创造出来的呢?其最初的形式是什么样子的?为什么只有句子才能完整地表达语义?这些问题就显得至关重要了。 关于人类何时形成语言这个问题已经研究讨论了很久,学术界一直没有定论,在1866年,巴黎语言学会甚至发表通告,禁止在学术会议上讨论该问题,有关期刊也不再发表此类论文。即便如此,科学界也从未停止过语言起源的研究,虽然迄今为止仍未有定论,但一些重要的成果还是发人深省的。 首先是人类的“非洲单一起源说”。近些年随着基因测序技术迅猛发展,古人类学家已经证明,大约在10万年前,现代人类的祖先全部生活在非洲东部,5万~6万年前,现代人类从非洲逐渐发展起来,向世界各地分期分批地迁徙,有的就近进入欧洲大陆,有的通过欧洲大陆到达亚洲,有的则去了美洲大陆。其中某一支在途中与他们的其他同类分手,来到东亚地区,而进入东亚大陆的这一支应该是这次迁徙中较早的一批。此后,也许因为特殊地理条件的阻隔,这一支与世界其他地区的同类从此绝少交流,走上了完全不同的发展道路。 众所周知,不像其他的文明古国,中华文明因其特殊的地理位置,幸运地得以一脉相承,汉语也幸运地、较多地保留了象形特征。而其他部族的语言,则由于交流的需要,都以记录语音符号为基本要素,显得与汉语大相径庭。因此,今天的汉语(也可扩大为汉藏语系诸语言),在世界语言中显得非常另类。萨丕尔说:“我们发现汉语比我们可能找到的任何其他例子都更接近完全的孤立语。”历史语言学认为,从同一语言分化出来的各个语言,其中离开原始母语的语源中心越远的,受语源中心的变化的影响就越小,因而可以在这种语言中找到同源语言中最古老的语言特征。汉语正是如此。读完本节的内容读者就会了解到,由于地域特殊导致了汉语的保守性,在这4 000年中,汉语基本的语法格局始终没有本质的变化。 现在从另一个角度来考察语言的形成。1866年德国人海克尔(E. Haeckel)在《普通形态学》中提出,“生物发展史可以分为两个相互密切联系的部分,即个体发育和系统发展,也就是个体的发育历史和由同一起源所产生的生物群的发展历史,个体发育史是系统发展史的简单而迅速的重演”。这就是人们所说的“生物重演律”。 儿童语言获得过程可以看作人类语言发展过程的浓缩性重演。Moskowitz经过多年对儿童语言习得的研究和观察,将儿童语言称为“电报式言语”。他发现,“在儿童语言的第一阶段,其句子最长只有一个词;其后的阶段最长句为两个词。”注意,这里最长句为两个词,但没有三词句阶段。而这两个词一般都是什么词呢?他又说,“最初学会的词汇基本上都是具体名词和动词;尔后才是比较抽象的诸如形容词之类的词”。他描述这种类似电报式的语言为:“许多基本的语义关系都是由两个单位表达的。”“早期电报式的语言的特征是句子简短,基本上是由实义词构成的简单句,这些词有丰富的语义内容,通常是名词和动词。这种语言之所以叫作电报式的语言,是因为这些句子中没有功能‘词’,即没有动词时态词尾,没有名词复数词尾,也没有前置词、连词、冠词,等等。” 如果我们从信号的角度来看待这个问题,答案就会很明朗。人类在单词句阶段的语言,严格意义上不能称为“语言”,它更像“动物的叫唤”,动物也会通过嚎叫来发出信号,或者警示危险、或者宣誓主权、或者发现食物、或者表达情绪,这并不奇怪。而一旦进入“双词句阶段”,相当于句子最初的形态,称为“指称—陈述”的分化阶段,此时最初的语言就萌芽了。“指称—陈述”的分化,意味着名词、动词、语法三者也逐步分化出来,语言就自然而然地诞生了。 # 1、完整语义的基本形式——句子 如果上述对语言产生之初的状况的推定是正确的,那么需要回答的仅剩最后一个问题,为什么只有句子才能完整地表达语义? 应该讲,对于自然语言处理的研究,回答这个问题比前两个问题更有意义。前两个问题是在回顾历史,是历史问题或者考古问题,而最后这个问题却迫使我们不能不面对现实。 语言的本质是一种信息编码。那么,信息的范畴又包括什么呢?相对于语言而言信息的范围更广泛,它指音讯、消息、通信系统传输和处理的对象,泛指人类社会传播的一切内容(来自百度百科)。这个定义有点空泛,不容易被理解。信息论的奠基人香农(Shannon)认为,“信息是用来消除不确定性的东西。”这一定义后来常被人们看作有关信息的经典定义加以引用,但笔者认为仍旧不清晰。为了更好地理解信息的本质,我们考察一下有关世界本质的如下描述。 直觉上,我们生活的世界是由空间和时间构成的,但从本质上讲,世间万物是由物质和能量构成的。引用一个流行多年的观点:世界由物质(这里应该称为质量)、能量、信息三大要素组成。说实话笔者一开始不完全理解这个观点。首先,有关物理学的研究中,物质和能量是两个经典的问题,而信息则不同,在这个观点中的信息好像很突兀地被加了进来。而且,爱因斯坦早就说过:“质量就是能量,能量就是质量。时间就是空间,空间就是时间。”有关质量和能量的转换方程,爱因斯坦的相对论早就给出过。而时间和空间的统一性理论,早已被斯蒂芬·霍金证实。那么,再回到这个问题:什么才是信息,信息的本质究竟是什么? 虽然讲到这里,我们还是搞不清楚,但是隐隐约约可以感觉到,已经越来越接近最终的答案了。我们不想引用大量的物理学原理和数学方程,而是从思维最深处来探究。既然质量和能量可以相互转化,也就是说质量和能量都可以代表同一事物,是同一事物在不同环境中的不同状态。那么,质量说明了物质的什么属性,而能量又说明了物质的什么属性呢?有一定的物理学和哲学方面常识的读者,应该不难回答这个问题:质量的本质是存在,而能量的本质是运动。一般来讲,纯粹的能量或纯粹的质量都不存在,世间的万事万物总是在存在和运动之间求得一个平衡。之所以称为存在,是因为有相对稳定的结构,结构创造了空间;之所以称为运动,是因为其轨迹经历了时间。所以,空间是存在的测度,时间是运动的度量。 简单地解释了客观世界万事万物的基本原理,接下来再看看信息。维纳说:“信息就是信息,既不是物质也不是能量。”这句话看似说了,又看似什么都没说,但再仔细想想,还是说了。以往我们对物质的研究都集中于物质本身,而信息则不同,信息的目标在于解决事物与环境的基本联系。为了便于说明,我们看看《信息论》中有关通信系统模型,如图2.16所示。  图2.16 通信系统模型 通信系统主要分成如下5个部分。 * (1)信源。顾名思义,信源是产生消息和消息序列的源。在自然语言中可以认为是外部世界的信号。 * (2)编码器。编码就是把消息变成适合在信道传输的物理量。这种物理量称为信号。可以理解为一种能够感知的存在,可以是能量形式(光信号、热信号、其他辐射信号),也可以是质量形式(大小、质量、速度等)。 * (3)信道。信道是指通信系统把载荷消息的信号从发送端送到接收端的媒介或通道,就是人们生活的自然环境和社会环境。 * (4)译码器。译码就是把信道输出的已迭加了干扰的编码信号进行反变换,变成信宿能够接受的消息。大脑通过感官接收到外部传递的视觉、听觉、触觉、嗅觉等信号,通过神经网络进行处理,最终变为可以理解的语句。 * (5)信宿。信宿是消息传送的对象,这里特指接受消息的人。 从上述不难看出,信息编码了外部对象的质量和能量,并通过解码使信宿本身能够感知存在。形象地说,信息是信宿对信源存在的感知。广义上说,它反映了一个事物在特定时空中对另一个事物的感知。因此,信息的本质是一种联系。失去了联系也就失去了信息。与质量和能量不同的是,信息联系了两个或两个以上的事物,其中一个事物使用某种编码表征了另一种事物。因此,我国著名的信息学专家钟义信教授曾对信息给出如下定义: “信息是事物存在方式或运动状态,以及这种方式或状态直接或间接的表述”。简而言之,信息就是对事物存在和运动的表征。 存在和运动都是事物最本质的属性。一种编码系统,想要完整地表达任何一个客观的事物,必须既要有能力表达其存在特征,也要有能力表达其运动特征。语言也不例外。单个的词只能表征事物的单一特性,或者是“存在”属性,或者是“运动”属性。语言想要完整地描述一个客观事物,并完整地传达出一个语义,就必须最少有两个不同性质的实词,形式如下。 ``` N(名词)+V(动词)或N(名词)+A(形容词) ``` 其中,一个表征了事物的“名”(存在的特征),另一个表征了“动”或“形”(运动或属性的特征)。这自然而然地导致早期人类语言的用词在词性上的分化。这种分化也称为“指称—陈述”分化。只有实现了“指称—陈述”分化,语言才能称为语言,而不是野兽的“嚎叫”,人才能称为“人”,而不是什么高级动物。 人类最初的语句带有很强的原始“指称—陈述”分化的痕迹,其表现形式多为SV (主、谓)结构。这一点也不难理解,刚刚学会使用语言的人类,就如同刚出生的婴儿,描述客观世界的方式,必然是简单、幼稚的。根据基本的思维形式和逻辑形式,可以认为,人类最初的语言是一种只有本体名词和相应的实义动词的语言,其他语法成分都是后起的。然而,早期语言的这种分化并不彻底,在汉语中,除去虚词和某些特殊用途的词之外,很多常用词的词性迄今为止仍没有固定下来,而需要根据上下文来确定。 但是,随着时代的变迁,语言的发展也越来越成熟,句子结构也变得越来越多样,终于形成现代语言中最常出现的SVO(主、谓、宾)型的句法模式。同时,随着语言成熟程度的提高,“指称—陈述”分化也越来越彻底。现代西方的语言,特别是英语,名词、动词、形容词之间的分化已经完全可以通过词汇的形态变化加以区分。 # 2、语言的初始形态与文言文 人类的语言形式、思维形式、逻辑形式最初本是三位一体的,也就是我们常说的“言由心生”。表达形式(指称—陈述)、思维形式(本体—属性)和逻辑形式(主词—谓词)的高度一致性也深刻地体现在汉语中。特别是在古汉语中,一切的词汇和句式都是为了清晰、准确、生动地传达语义而存在和变化的。常以表现强烈的画面感、内在情绪等为主要的目标。 因为历史久远,古代汉语是较为接近人类语言初期状态的语言。著名语言文学家、教育家王力先生在《古代汉语》中指出:“文言是指以先秦口语为基础而形成的上古汉语书面语言。”使用古代汉语所写成的文章称为文言文。第一个“文”字,为“纹”,修饰之意。中间的“言”字,是口头所说的话,也就是口语。“文言”两字,就是修饰过的口头语言。最后一个“文”字,是作品、文章等意思,表示文种。 文言文主要以先秦时期的口语为基础而形成。春秋战国时期,纸张这种廉价而轻便的文字记载工具还未被发明,人们要记录文字需要使用竹简、丝帛等物,而丝帛价格昂贵、竹简笨重且记录的字数有限,为能在“一卷”竹简上记下更多事情,需要对语言做一定的修饰,或者去繁就简,或者去粗取精,等等。这个过程就称为“文”。 不过,笔者认为,文言文的简练不完全因为行文的修饰,这种简练更保留了人类语言初期的形式和特点,即表达形式(指称—陈述)、思维形式(本体—属性)和逻辑形式(主词—谓词)的高度一致性,这一点对理解古代汉语非常重要,与相对较为成熟的现代汉语相比,其主要表现在如下几个方面。 * (1)词法上强调本体和属性,陈述中为了明确语义常以本体或属性充当谓词。 ❑ 名词用作动词、使动词、意动词,或者直接作状语。“一狼洞其中”中的“洞”表示山洞——名词性的本体,而这里为了明确语义作为动词使用。“纵江东父老怜而王我”中的“王”为“使……称王”的意思,属于使动用法。 ❑ 形容词用作名词、动词或者使动词。例如,“将军身披坚执锐”中的“坚”指“坚硬的铠甲”, “锐”指“锐利的兵器”,是形容词用作名词。再如名诗句“春风又绿江南岸”中的“绿”字,则是典型的形容词使动用法,意为“使……变绿”。这是属性做谓词的鲜明示例。 ❑ 数词用作动词。如“夫金鼓旌旗者,所以一人之耳目也”中的“一”是“使……一致起来”的意思。 ❑ 动词用作名词、使动词。如“子钓而不纲,戈不射宿”中的“宿”指“歇宿的鸟”,动词当作名词。 在现代文中,上述这些词的词性基本都已经固定下来了,而在语言的形成初期却还不固定。应该讲,当时人们很难找到合适的动词来表达如此准确、生动的语义,其实现在也难。虽然现代的语法称之为词类活用,但从认知角度来看,这些词的活用是为了更好地表现语义,使语义变得更具体、生动。由此可见,古代汉语在词法的应用上充分体现了重语义、轻文法的特点。这是汉语(包括古今)一直以来非常重要的一个特征。 * (2)句法上的逻辑性。 ❑ 语序上轻文法、重语义。现代汉语句式一般是“主语+状语+谓语+宾语”的顺序,古代汉语中的语序则较为特殊,主语可以在谓语后,宾语可以在谓语前,状语可以在谓语后,等等。用现代句式套用文言句式寻找差异,实在没有什么意义。我们可以一言以蔽之,对于文言文,你强调什么就把什么放到重要的位置,或者放到句子的最前面,或者放到最后面,然后再组织其他的成分。 例如,“居庙堂之高”译为“处在高高的朝堂之上”,是不够准确的,古人的本意是“处于像朝堂那样的高处”,想强调的是“高”,而不是庙堂。再比如,“甚矣,汝之不惠”,我们常看作主语和谓语倒置;定语后置句,应为:“汝之不惠,甚矣。”(“你太不聪明了!”)其实古人的本意是“太不聪明了,你”,想强调的是“太不聪明”(类似现代文中的表达:见过不聪明的,没见过像你这样不聪明的)。有了前两个例子,后面这个句子就很容易理解了:“石之铿然有声者,所在皆是也。”“那些(敲打时)能铿锵作响的石头,到处都是。”这里想强调的是“石头”,而不是“铿锵作响”。 ❑ 句法用于表示逻辑句式的不完整。 从逻辑角度讲,古文中的判断句仅是一种意念的判断,还未出现命题判断的谓词。例如,“陈胜者,阳城人也。”现代汉语的判断句常以“是”作谓语。这句话在现代汉语中可以翻译为:陈胜是阳城地方的人。 被动句中,现代汉语中的被动句由介词“被”构成,而古代汉语中很少使用“被”显式地标示被动。语句中仅用动词表示,被称为意念被动。这种无标示的被动词需要在具体语境中加以理解,例如,“文王拘而演《周易》”中的“拘”是“被拘禁”的意思,属于被动句。 再来回顾那句话:人类最初的表达形式(指称—陈述)、思维形式(本体—属性)和逻辑形式(主词—谓词)是高度一致的。读者应该能够理解其中的含义了。汉语,特别是古汉语,它的基本语法形式与当时人们的基本思维形式和逻辑形式是高度一致的。 这也体现出文明正处于形成期,还有诸多不成熟之处。所以,在句式上强调判断和被动的句式并不完备。这不仅反映了语言的不足,也体现了人们思维的不足,特别是,逻辑思维尚处于萌芽期。汉语从此与西方语言重逻辑、重形式的道路分道扬镳,形成了一条特有的发展轨迹。在描述社会生活、自然事物、内心情绪上,古汉语已经达到了相当的高度。以至于几千年的封建王朝中,文言文成为唯一的官方文体。而在古汉语中,语义绝对是第一位的,为了服务于语义,可以灵活地调度文法、甚至不顾词性的差异。所以说,与西方的拼音文字不同,汉语的一切变化都是以表意性为核心的。 # 3、白话文与复音词 所谓“白话文”是指一种书面语,而不是将口头语言原封不动地直接复写为文字。它是根据常用的、直白的口头语言撰写的文章。这种文章中所使用的句法和词汇与口语基本一致,但也有修饰的成分。我们常说的“文言文”就是先秦时期的白话文,只是后世人们的语言发生了很大的变化,但仍使用先秦白话文作为官方书面语,于是称之为“文言文”。 语言像文字一样,随着时代而不断变迁。后世常指的白话文是由于口头语言逐渐发生了改变,与官方的书面语逐渐分离,而形成的一种独立文体。虽然文言文与白话文在句法上有一定差异,但总体都是一致的,所以我们并不觉得读文言文像读外语一样。造成文言文晦涩难懂的原因是几千年来汉语词汇的变化。从语言处理的角度而言,如果不去研究词汇沿革,中古和近代的白话文没有什么差别。 在介绍构词法之前,对词汇做一个简单的分类。根据词汇的生命周期,将词汇分为基本词汇和一般词汇。所谓基本词汇,是使用频率较高、生命周期较长、变化比较慢的常用词汇,它们构成了语言系统的骨架,也是构成新词的基础。所谓一般词汇,是指那些随着新事物和新概念的产生和发展,而不断地产生的新词和新语;同时,又有一些旧词随着社会中某些事物和现象的消失而消亡,它们的生命周期比基本词汇要短得多。 再根据词汇的音节数划分,分为单音词和复音词。单音词,就是单音节词,由一个音节构成,在书面形式上用一个汉字表示,比如,天、人、牛、红、一、飞、走。文言文中多用单音节的词。复音词是由两个或两个以上的音节构成,就是由两个或两个以上的汉字构成的词,比如,风景、前途、人间、依附、脱落等。 词汇的音节数是区分文言文和白话文的一个重要依据。据统计,在现代汉语中,频率最高的1万个词中,单音节词占24%,其余均为多音节词。其中,双音节词占全部的63%。随着词汇统计量的扩大,双音节词占有的比例越来越高,而单音节词显著降低。文言文则一直以单音节词为主,占80%以上。 汉语的言文分离(口语与书面语的分离)从东汉末年就开始了。因为文言文在整个封建社会中都作为官方的书面用语,导致汉语的言文分离前后历经三次较大的变革。这三个时期包括:魏晋南北朝时期、宋元时期、鸦片战争到五四运动。历经近1700年的历史,直至发展到现在使用的白话文。 基本上,三个时期的共性都是相同的,即每个时期都伴随着外族的入侵,一方面对原有正统的中华文化产生了冲击,多种文化交织、融合使传统文化融入了新的元素;另一方面,农业、工商业和社会生活等全方位的变化也导致了语言的发展和进步。应该说这是汉语词汇变化的外因。 在漫长的汉语发展史中,词汇发展的规律与文字的发展规律截然相反,词汇从先秦那种简单,甚至简陋的独字词形式(很多证据表明,上古时期的独字词不完全都是单音节),向语义含义更加丰富的复音词,主要是双音词方向发展。词汇所表达的语义变得越来越细腻、精确和丰富了,词汇的总量也在不断增加,这里既包括基本词汇也包括一般词汇。例如,《世说新语》中有“风景、前途、人间、依附、脱落、克服、经营、修改、慨慷、正直、奇丽”等;《搜神记》中有“时期、时节、动作、从事、嫉妒、分别、努力、扶持、禁止、供养、怯弱”等。 词汇的复音化,特别是双音词的广泛使用有其内在的原因:随着经济的发展和文化的融合,新鲜事物不断涌现,人们需要描述的新事物越来越丰富,使得现有的词不够用,需要大量而频繁地构造新词。解决这个问题的策略如下。 第一,大量使用假借字,仍旧保持独字为词。这种方法的弊端前文已经讲过。大量使用假借字容易造成假借字本身在语义上的混淆,不利于词汇准确、清晰地表达语义。而汉语是一种语义为先的语言,这么做的空间显然不大。 第二,使用造字法,根据新事物造出新的独字词。造字是一个复杂的过程,新字从制订、审核、发布,到最后通行是一个较长的过程,这个过程在现代都需要专门的部门投入大量人力、物力宣传推广,而在古代,大规模频繁地构造新字显然是不可行的。前文谈过有关基础词汇和一般词汇的概念。新事物的命名应归为一般词汇的范畴,大多数新生事物的生命周期都有限,如果每个事物都通过新字来表示,肯定是不现实的,这会造成大量的独字词还未推广被人们接受,该事物就已经消亡了。 第三,人类能够记忆并熟练使用的符号总量是有限的,迄今发现的几十万片的殷商甲骨中所使用的甲骨文符号也不过4 000多个,其中有很多异体字。即便到了现代,虽然词汇的总量已经超过百万,但是所使用的常用字也只有三四千个。《康熙字典》所记载的超过4万多个汉字中,其中绝大多数都是生僻字,即使在当时文言文中也不常用,更不要说来源于老百姓口语的白话文了。所以,造新字这条路也行不通。 最后,只剩下一条路了,使用复音词。通过某种构词方式将若干个单音词复合使用,构成新词。这种方法并非新策略,在形声造字法中就已经被广泛使用。多数形声字仅分为左右两部,左边常是形部,右边是声部,两部合并构成新字。值得注意的是,汉字中形声字所占比例具有绝对多数,而复音词特别是双音词就借助了这种组合的原理。所不同的是,合成双音词的左右两字,是按照汉语句法规则进行搭配的,有如下几种类型:偏正式(属性+概念)、述宾式(动作+对象)、联合式(概念+概念)、主谓式(主体+动作)、述补式(动作+结果)等。将句法规则应用在造词上,是一个创举。这使得每个只要掌握口语的人都能准确理解复音词的含义,而事实也证明,这条路是成功的。 从魏晋南北朝开始,双音词的数量一直呈上升趋势,在之后的每个时期都出现了较大的发展,最终成为构成汉语词汇的主流。 非常有意思的是,在复音词的构造中,还呈现这样一种规律。汉语中双音词显著多余其他类的词汇,而且单音节和其他多音节词汇有不断向双音节变化的趋势。这种趋势不仅发生在古代,而且现代仍然如此。 * (1)单音节词汇变双音节的例子。 月—月亮 耳—耳朵 唇—嘴唇 发—头发 竹—竹子 石—石头 师—老师 姨—阿姨 * (2)多音节词汇变双音节的例子。 落花生—花生 照相机—相机 山茶花—茶花 机关枪—机枪 化学工业—化工 文学艺术—文艺 超级市场—超市 彩色电视机—彩电 人民代表大会—人大 政治协商会议—政协 这种趋势也反映出这样一个数学原理:假设按照人们能掌握的常用字4 000字来计算,双音词的数量就是4 000的平方,共计1 600万种组合方式。这个数字足够承载得下工作、生活中所需的所有词汇。而三音词、四音词在书写上明显比双音词要麻烦,至少没有双音词那么简练。因此,其他复音词向双音词转化就不难理解了。单音词成型的历史比较久远,一部分已经固化为固定的用法,扮演着不可取代的句法角色,这部分词的变化不大。一些常用的名词,为了语言韵律的一致性,也通过添加一个后缀或前缀演化为双音词。 汉语词汇走入复音节之后,词汇的表现发生了巨大的变化。 词汇所表现的内容更加丰富了,新词被大量创造出来,具有了时代的特征。 原有的独字词与其他词结合之后,语义变得更加丰富,用法也更加灵活,如“打”这个词,跟不同的词相结合,就有不同的意义。例如,“敲打、打围(打猎)、打迭(安排)、打水、打躬、打发、打点、打听、打探、打招呼”等(现代还有“打油”、“打伞”、“打盹”、“打枪”等)。 新词可以通过音译直接而得,例如,“逻辑(Logic)”、“引擎(Engine)”、“白兰地(Brandy)”、“沙发(Sofa)”、“扑克(Poker)”、“硼酸(Boricaacid)”、“摩托车(Motoracar)”、“冰淇淋(Iceacream)”、“东亚(Oaet Asia)”等。还有就是意译,如“银行”、“国会”、“电话”、“墨水”、“天使”等。 更多的是根据不同的时代创造出了具有本时代特征的新词。例如,“五四”期间出现了“实用主义、共产党、唯物主义、唯心主义、辩证法、经验主义、机会主义、关门主义”等新词。抗日战争时期又产生了“八路军、新四军、儿童团、决死队、地雷、民兵、伪军、沦陷区、汉奸、地下军、促进会、统一战线”等新词。建国后,还有“肃反”、“三反”、“五反”、“反右派”、“反右倾”、“四清”、“文革”、“四人帮”等词汇。这些词汇都有鲜明的时代特征。 很多一般词汇随着时代的变迁,逐渐退出了人们的视野,但是也有很多词汇沉淀下来,成为基础词汇,扩充了基础词汇的容量。 除音译词之外,复音词的新词构造与句法基本一致,它的理解和掌握都不需要外界的干预,也不需要特别的解释和说明。望文即能生义。这使人们自然而然地融入时代之中,既是新词的使用者,也是新词的创造者。 * (1)常用字的数量变少,降低了掌握文化的难度。 通过科举考试做官是古人学习文化的最主要的动因。古时科举要考的内容首推十三经,八股文是从十三经中随意抽取一个词、一句话、一段文字,就以此为题作文。所以十三经是必背的。十三经有多少字呢?据南宋郑畊老统计,周易24 207字,尚书25 800字(近人黄侃除去伪古文,则有17 925字),毛诗39 224字,周礼45 806字,仪礼56 115字,礼记99 020字,左传196 845字(孔子春秋本文18 000字),公羊传(清阎若琚统计)44 075字,谷梁传(清阎若琚统计)41 512字,论语13 700字,孝经1 903字,尔雅13 113字,孟子34 685字,大学1 753字,中庸3 568字,共计641 326字。其中,互不相同的单字数为6 544个字。 看起来不多,但由于文言文与现实生活严重脱节,又常用单音词,独字成词,词形与词义没有必然的联系,要写出像样的文章,不仅要记住这6 000多个字,而且对其使用语境,即所有十三经的64万多个字都要背熟才行。这绝不是古代科举故意难为人,现在的英语也是这样,英语中大多数单词都是独字成词,学习英语的语法并不困难,简单的会话也不是太大的问题,但是要用英语表达复杂的主题,恐怕不是一年半载就能做到的。 白话文则不同。山西大学计算机科学系利用计算机抽样统计从五四时期到当前的200万字的语料,检测选收常用字的使用频率。检测结果是:常用字(2 500字)的覆盖率达97.97%,次常用字(1 000字)的覆盖率达1.51%,合计(3 500字)覆盖率达99.48%,其他汉字只占0.52%。现代常用字较之文言文时代减少了一半。原因很简单,有些能用复音词表示的语义,就没有必要再用单音词了。特别是体现语言丰度的名词类词汇。白话文的回归使文字不再是统治阶层的专宠,也不需要经年累月的艰苦学习,文字获得变得像语言一样简单容易,已经成为人们生活中必不可少的一部分。 * (2)产生了大量的同义词和近义词。 近义词和同义词的出现说明,词汇的总量大大超越了语义的总量。这有助于表现更准确和更细腻的语义,创作适用于各种语境下的文体。 例如,“看”这个动作,就有“瞧(细看、注视)、瞅(窥见、张望、远望)、睄(shào大概看)、包斜(要睡的样子的看)”,还有“望、观、见、看”等。 下面几组都是常用的同义词和近义词:“照管、照应、照看、料理、招呼”; “留意、留神、留心;注意、当心、小心”; “喜欢、欢喜、快乐、快活、开心、高兴”; “精壮、强壮、健壮、健旺”。 * (3)成语被当作一个词来使用。 在以复音词为中心的现代白话文产生之前,成语一般作为涉及典故的短句或词组使用。复音词产生之后,成语逐渐演变为一个词,具有固定和明确的语义,既使文章变得更加生动,也便于读者理解。 总之,随着词汇的发展,白话文已经为取代文言文做好了充分的准备。 # 4、白话文与句法研究 从语言学角度而言,上世纪轰轰烈烈的五四运动,也称为新文化运动,是语言和文字之间在表现形式上矛盾的集中体现,既是千百年来语言和文字严重脱节的一次革命,也是白话文文体的一次回归。前面讲过,语言和文字的两大矛盾,而这个矛盾是第一位的,是关乎到文字能否生存的本质问题。 胡适先生是这次运动的主导者之一,其在《文学改良刍议》中对新生的白话文提出如下著名的八大主张。 一曰:需言之有物 二曰:不模仿古人 三曰:需讲求文法 四曰:不做无病之呻吟 五曰:务去烂调套语 六曰:不用典 七曰:不讲对仗 八曰:不避俗字俗语 可以说,在白话文作为书面语言不到一百年的时间内,中国的语言学界基本上恪守这几条的原则,这使得白话文得以健康蓬勃的发展,并通过后来的简化汉字、汉语拼音、扫盲运动等一系列改革方案,使文盲率从解放前的80%下降到2010年的9.04%,成人文盲率更少,仅为4%。这个过程仅仅用了60年的时间。 在文化走进千家万户的时代,白话文的语法研究却没有那么幸运。真正意义上的汉语语法学,从建立到如今,也不过一百年的历史。19世纪末至20世纪初,马建忠在模仿西方传统语法(拉丁语法)的基础上,撰写了第一部系统研究中国古汉语语法著作《马氏文通》。它的出版,标志着汉语语法学的正式诞生。最早汉语语法学基本上是借鉴西方传统语法学的框架和内容。五四运动刚一结束,20世纪20年代,黎锦熙的《新著国语文法》则模仿英语语法建立起来,它是第一部系统的现代汉语语法著作,其出版标志着现代汉语语法学的正式建立。 到了40年代,吕叔湘的《中国文法要略》、王力的《中国现代语法》及高名凯的《汉语语法论》发掘并添加了汉语语法的一些特点,也有某些创新的观点,但整体上还是属于传统语法。随着对传统语法的研究和实践,人们发现根植于拼音文字的语法体系并不完全适合重语义、轻形态的汉语。 鲁川就将英语的语言结构比喻成“榫合法”,是把木料凿出“榫”(词汇的形态变化)而按照某种预定的框架(时态、语态)组合到一起。汉语是“黏合法”,无须木料变形,只把实词摆在一起,必要时用虚词黏合即可,并给出了一幅生动的示意图(见图2.17)。  图2.17 汉语与英语的结构比较 20世纪80年代初的改革开放迎来一个新时期。新时期的学术政策宽松,人们思想开放、活跃,西方语言学的各种流派、各种学说都纷纷介绍到国内。其中,对汉语语法研究影响比较大的有转换生成语法、系统功能语法、“格”语法、从属关系语法、认知语法、话语篇章语法等。这些思想在本书的后面还有简单介绍,这里不再赘述。在对语法进行解释的问题上,国外的“形式主义”和“功能主义”在我国语法学界也得到了充分的研究。 现在语法学界有三派:一派主张从语言内部进行解释,如运用句法制约和语义制约来解释句子成立的条件或句式变换的条件,这主要受转换生成语法的影响(Stanford的短语结构树和PCFG句法主要以此学派的理论为基础);另一派主张从语言外部进行解释,如或用认知心理来解释某些语法现象、语法规则,或用交际功能来解释某些语法现象、语法规则,这主要受功能主义语法学的影响(本书的大部分观点都是基于这个学派的);再有一派认为:有些语法现象只能从内部进行解释,有些语法现象只能从外部进行解释,有些既涉及内部也涉及外部,由此主张在对语法现象或语法规则进行解释时,要具体情况具体分析,既要重视内部解释,也要重视外部解释。(这一派的成果似乎在前两派的思想和成果上做了一些集成。) 在此基础之上,语言学界对汉语语法做了如下新的诠释。 * (1)不依赖于严格意义的形态变化,而借助于语序、虚词等其他语法手段来标识语法关系和语法意义。 * (2)给出语法研究和学习的最终目标:揭示语义的决定性、句法的强制性、语用的选定性及认知的解释性。