赵走x博客
网站访问量:151460
首页
书籍
软件
工具
古诗词
搜索
登录
16、算法部分源码解析
15、系统总体流程与词典结构
14、中文分词
13、词汇与分词技术
12、三个平面中的语义研究
11、汉语的发展
10、字形的流变
9、六书及其他
8、文字符号的起源
7、整合语义角色标注模块
6、整合句法解析模块
5、整合命名实体识别模块
4、整合词性标注模块
3、整合中文分词模块
2、现代自然语言系统简介
1、中文语言的机器处理:历史回顾
9、六书及其他
资源编号:76120
NLP汉语自然语言处理原理与实践
自然语言处理
热度:89
后人在总结前人的造字方法时,最重要的成果就是六书。它是由汉代学者根据汉字的构成和使用方式归纳成的六种模式,总称为六书。六书是指:“象形”、“指事”、“会意”、“转注”、“假借”、“形声”。下面以许慎的《说文解字》作为根据,结合象形词典(http://www.vividict.com/ )给出六种模式在构成、认知方面的解读。
后人在总结前人的造字方法时,最重要的成果就是六书。它是由汉代学者根据汉字的构成和使用方式归纳成的六种模式,总称为六书。六书是指:“象形”、“指事”、“会意”、“转注”、“假借”、“形声”。下面以许慎的《说文解字》作为根据,结合象形词典(http://www.vividict.com/ )给出六种模式在构成、认知方面的解读。 # 1、象形 “象形者,画成其物,随体诘诎,日月是也。”这句话说的是,所谓的象形字是把具体的物体以绘画的形式表现出来,形成文字,根据物体的不同绘画形式也不同,比如图2.7和图2.8所示为象形字。  图2.7 “山”的字形演变  图2.8 “日”的字形演变  世界各类古文明的文字大多起源于象形字。受限于当时使用的书写工具,用文字的线条或笔画把要表达物体的外形特征简单地勾画出来。象形文字抽象掉了自然界事物的具体图形(颜色、明暗等特征),仅保留了形状上的相似。象形字的形体直观反映了自然界的客观事物本身。 虽然象形字的原理简单,但是意义却很深刻。一方面,它是早期人类对客观世界的一种最基本的编码方式,然而这一方式却包含两种重要的机制:模仿和抽象。模仿和抽象都是重要的认知现象,而抽象在认知层面要高于模仿。简单而言,模仿可以来源于经年累月的观察和学习,只要重复的次数足够多,人人都可以掌握。模仿机制直接形成了早期的岩画,但抽象则不同,抽象具有高级思维的某些特征。例如,鱼可以分为鲤鱼或鲫鱼,还可以分为大鱼和小鱼,它们的外观或尺寸上有明显的差别,但从一个抽象的高度来看,它们都在水中生活、身体都呈纺锤形、有鱼鳍、鱼鳞、用鳃呼吸,都属于同类,即同属于鱼的属类(范畴),于是就用“鱼”这个象形字来统称它们。早期的人类通过构造象形字建立了属类的思维。文字的产生,首先是象形字的出现,使原始人类发展出了范畴的概念——一种认知世界的基本能力。 另一方面,它构成了后续几种造字方法的字根,也称为本字。也就是说,其他造字方法所造出的字,都以象形字的字形为基础,在此结构上做出某种变形。有的添加笔画,反映了局部与总体的关系——指事字;有的增加偏旁部首,反映了含义与读音的关系——形声字;有的干脆就用本字表达其他的含义——假借;还有的将多个独体字组合到一起,引申出其他的含义——会意,等等。 # 2、指事 “指事者,视而可识,察而见意,上下是也。”这句话说的是,一眼看上去就可以识别出整体(本字),仔细观察就能发现意义所在。图2.9和图2.10所示为指事字。  图2.9 “刃”的字形演变  图2.10 “上”的字形演变  在人们的生产生活中,有时候需要强调地不是整体,而是局部,或者需要参照已知位置指示出其他的位置,那么怎么办呢?很简单,就是在象形本字的相应部位加上一个标识符号,以指示所表示的局部范围或相对位置。 如上例,“刀”锋利的部分称为“刃”; “天”相对于“地”为“上”。这就是该造字法的基本含义。这里“刀”和“一”是本字,“丶”和“|”为指事的符号。指事字的含义很清楚,它通常表示某种整体与局部的关系或者相对位置的概念。指事造字法说明原始人在使用文字过程中,逐渐形成了事物的局部和总体认识,以及位置上相对的认识。基本上,最初的指事字,其本字都是象形字。 # 3、会意 会意:会意者,比类合谊,以见指撝,武、信是也。这个造字法,是将两个或两个以上的字根组合起来,使之形成一个新字,并衍生出新的含意。图2.11和图2.12所示为会意字。  图2.11 “休”的字形演变  图2.12 “盗”的字形演变  会意造字常用两个及两个以上的独汉字,根据各自的含义通过左右拼接、上下拼接等方式表示更为复杂的含义,从而构造出新字。其表示的含义也逐渐脱离了直观的自然界事物,而引申为表达人们生产生活中的某种关系或活动,常用来表示某种行为或状态。例如,“休”字表示倚靠着“树”的“人”,说明此人正处于休息状态;“盗”字表示“因为收入不足,产生贪欲,越过边界,抢夺他人的财务”,这种行为称为“盗”。这些字反映了原始人类生产、生活活动的方方面面。 就本文研究的范畴而言,我们更注重字的含义与结构的关系。一般会意字的字形由多个独体字并列构成——这里的并列是指意义上的并列,其中每个独体字都有独立的含义,会意字的整体含义由各个独体字共同构成,缺少了哪一部分,都无法正确理解该字的意义。另一方面,会意字中的独体字之间有位置、大小的差异,不同的位置甚至形式,都会对会意字的含义产生影响,例如“武”字,从戈从止。止是趾本字,戈下有脚,表示人拿着武器走,有征伐或显示武力的意思。再如“从”字是一个人跟着另一个人走,表示跟随。而“比”,表示两人接近并立。 会意字的产生反映了人类一种更高级的认知形式,它通过两个或多个事物的组合关系,派生出了新的意义。我们需要研究和理解这个派生的过程。以上文中的“盗”为例,如图2.13所示,该字最初描述了一个过程,“常因为不足,贪欲,过河越界、劫物掠货”。之后该含义被泛化为“一切用不正当的手段谋取他人财物的行为”。第一次引申(扩大引申)之后,“过不过河,是不是因为收入不足”这些具体的行为原因就显得不重要了,而保留并强调了“用不正当手段谋取他人财物”的行为——表示动作。再向后引申(词性引申),还可以指实施此类行为的“人”——强盗、盗贼。  图2.13 “盗”语义引申 这里所说的引申大体上可以分成隐喻和换喻两种方式。有关隐喻或换喻的具体分析,我们放到后面的章节中再做解释,本节以隐喻为例来解释引申的来源和基本含义。 文学上,隐喻被看作一种修辞方式,用一种事物来比喻另一种事物,目的是使行文更加生动、更有感染力。例如,我爱北京——祖国的心脏。此句中北京被拟人化为祖国的心脏。但这里,我们所说的隐喻和换喻不局限于语言文学中的修辞方法,而把它看作一种认知现象。那么,引申就是一种人类重要的认知能力。 为什么常把一种事物与另一种事物进行类比呢?因为,在生产、生活中,人们偶然遇到一种新生事物(或抽象事物)时,常常需要把所见、所闻、所想传达给别人,大家形成共同的认知,以便做出决策。语言作为一种沟通交流的重要手段,必须要完成这个过程。那么,我们如何描述和说明这个新事物呢?因为其他人并没有亲眼见过此类事物,描述该事物的形体和外貌可能并不困难,但是想要进一步说明它的内在属性、行为、结构或机制就不那么简单了。 此时,就需要一种新的描述方式,将新事物的属性、行为、结构或机制提炼出来,与某种或多种特征相似的、我们熟悉的事物进行类比。相互类比的两者中,其中一种事物是有待认识的较为陌生的事物,而另一种事物则是我们较为熟悉的,很容易理解其相关特征和运作方式的事物。这就使我们把对熟悉事物的认知转移到了新事物上(或抽象事物上),完成了对新事物的认知过程。 隐喻(或说引申)是一种通过文字(或语言)来完成的高级认知模式。它简化了大量描述新事物各种特征的细节,使认知过程变得更加简单,从而加快了我们认知事物的速度。会意字从构字法上体现了这种认知模式的基础形态。 # 4、形声 形声:形声者,以事为名,取譬相成,江河是也。所谓以事为名,即依事类而定其名字。是说在经某个事物定名而造字时,先确定它在客观事物中的属类(范畴),属类确定后就用表示此属类的字来做新造字的语义部分;所谓取譬相成,就是根据语音取一个读音相同或相近的字来做新造字的标声部分。使用语义和标声的两个部分共同构成所造的新字。 形声法是在象形字、指事字、会意字的基础上形成的一种新的造字法,它仅由两个独体字——表示意义范畴的意符(形旁)和表示声音类别的声符(声旁)复合而成。意符一般由象形字或指事字充当,后来发展为偏旁部首的形旁;声符可以由象形字、指事字、会意字来充当,后来发展为偏旁部首的声旁。 形声法巧妙地把读音与语义结合起来,简化了造字的结构,又清晰地表达了事物的范畴和读音,不仅便于构造新字,也便于记忆。现在普遍认为,早期人类的语言形成于文字之前。一个事物往往先有读音,如果需要记录,再行造字。只要某个事物或概念有其属类(范畴),并有约定俗成的读音,就能自然地通过形声法构造出新字。因此,形声法一经出现,就成为最能产的造字形式。仅以甲骨文为例,形声字约占27%。现代汉语中的形声字已达90%以上,成为最主要的汉语造字方法。 在形声字之前,象形、指示和会意所造的字,其字形与字义是统一的,字形能够完整地表达语义。但从形声字开始,这种情况发生了变化。一部分表义的功能让位于表音的声旁,更便于将语言中表义的音节迅速构成文字。这使文字在数量上发生了质的飞跃,同时,形声造字法使字形与字义逐渐分离开来。这是汉字走向符号化的第一步。 # 5、转注 “转注:转注者,建类一首,同意相受,考老是也。”这句话说的是,用一个部首来表征部内的字,意义相同的字之间可以相互解释。如“耂”部的考字和老字就是这样(在甲骨文中“考”和“老”字系出同源)。与此相类似的还有“母”和“女”, “帚“和“妇”,等等。以“母”、“女”为例简要说明,如图2.14和图2.15所示。  图2.14 “母”的字形演变  图2.15 “女”的字形演变  转注是原始文字规范化的开始。专注暗示了这样一种规则——语义上近似的两个字,其字形也应该尽量相似,其不同之处可以通过其他造字模式来弥补。例如,“女”通过加入表示“因生育而发达的两乳”的两点,即指事造字法,构造出了新字“母”。“帚”在甲骨文中是指由一簇干芦花用绳捆扎成的扫地工具。旁边增加一个“女”,就变成了女子在家做扫地等家务,即在家扫地做家务的女主人。很显然,新字“妇”是通过“帚”+“女”合并得到的,这是会意法。 转注法的提出说明上文所述的4种造字法并不完整,表示同一语义的字可能有很多种。例如,“妇”的语义是女主人,即使在奴隶社会,女主人也不一定在家要扫地,也可能还做饭、带孩子、洗衣服,甚至可能什么都不做,就是待着,天天和男主人吵架玩,等等。仅通过诸如象形、指事、会意这三种方法造出的女主人,可能是千差万别的,而且每个字仅仅代表了女主人这个语义的某一方面,而不能反映整体。 转注造字法的提出解决了这个问题。该方法强制将语义相近的字(词)都归为一类,使用同一或相近的字形(偏旁部首)来构造。这么做的好处是显而易见的,因为氏族公社或奴隶制国家的文字权通常都掌握在记事官(常为巫蛊)的手中,氏族公社成员或国民在部落或国家内都服从统一文字的规范。这使此种造字法的实施变得非常容易。 以殷商时期的甲骨文为例,从1899年的首次发现,共计出土甲骨154 600多片(它们分布在世界各地,其中内地收藏97 600多片,台湾地区收藏30 200多片,香港特别行政区收藏89片,总计中国共收藏127 900多片。此外,日本、加拿大、英国、美国等国家共收藏了26 700多片)。到目前为止,这些甲骨上刻有的文字符号仅有4 500多个。注意,这4 500个文字符号既是字也是词。在当时的自然条件下,仅用4500个词就可以表达丰富的社会生活,不得不说专注法起到了重要的作用。 # 6、假借 假借:假借者,本无其字,依声讬事,令长是也。意思是说,假借法是文字中为表达某一新事物,本来没有表示它的字,就依据读音去找一个音同或音近的现成字来赋予其新的词义,用以表达该种事物。“令”字、“长”字就属于这类构造法。简言之就是借用已有的字,表达某一新(未命名)事物的名称。 这种造词法现在还常用。例如,外来词的中文译名都是根据外来词的发音,再找到对应的汉字,一个音节、一个音节地拼出来的。至于甲骨文的读音,应属于上古读音的范畴,与现代相去甚远,和中古也有很大区别,它们是语言学家和历史学家研究的问题,已经超出了本书的范畴。 但需要说明的是,假借法用已有的汉字去记录新词,其进步的意义在于,进一步减少了需要记忆的字符数量,这是假借的积极作用;但是,用了假借法之后,一字兼表数意,客观上造成了一些同音同形而异义的词,使人不易掌握,这也是假借的消极作用。 在汉语自然语言处理时,一词多义的现象经常出现,对于一词多义问题的处理,也是自然语言处理的一个重要的范畴。 本书并非汉语考古类的书籍,也不是语言研究类文献。这里花了很多笔墨来介绍汉字的来源和六书造字法的目的在于,从一个侧面使读者了解古人通过构造文字如何形成认知思维,以及汉语认知的特殊模式。这对于今后研究和解析词汇及文本都具有一定的意义。