赵走x博客
网站访问量:151459
首页
书籍
软件
工具
古诗词
搜索
登录
16、算法部分源码解析
15、系统总体流程与词典结构
14、中文分词
13、词汇与分词技术
12、三个平面中的语义研究
11、汉语的发展
10、字形的流变
9、六书及其他
8、文字符号的起源
7、整合语义角色标注模块
6、整合句法解析模块
5、整合命名实体识别模块
4、整合词性标注模块
3、整合中文分词模块
2、现代自然语言系统简介
1、中文语言的机器处理:历史回顾
10、字形的流变
资源编号:76121
NLP汉语自然语言处理原理与实践
自然语言处理
热度:90
文字一经形成就逐渐发展开来。殷商时期,文字的持有者主要是奴隶主贵族,以巫蛊为主,文字逐渐在奴隶制国家内部的统治阶层之间学习和传播,用于祭祀占卜、谋议国事、训导言词、施政文告、发号施令、鼓励士气等,成为记述帝王和贵族言行的重要记事工具。
文字一经形成就逐渐发展开来。殷商时期,文字的持有者主要是奴隶主贵族,以巫蛊为主,文字逐渐在奴隶制国家内部的统治阶层之间学习和传播,用于祭祀占卜、谋议国事、训导言词、施政文告、发号施令、鼓励士气等,成为记述帝王和贵族言行的重要记事工具。 随着应用范围的逐渐扩大,文字的用途也得到了发展,如果说《春秋》、《论语》继承了上古文字的职能,而《诗经》则完全是一部崭新的文学艺术类作品,无论从体裁到内容都是一种创新。到了春秋战国时期,文字首先在史学学者和文化领域得到广泛传播,文学体裁也不断发展,形成了著名的诸子百家、百家争鸣的时代。 但是,到了战国末期,由于连年的战争,把战时信息传播的及时性、数量和准确程度都提高到了前所未有的高度,文字的使用者进一步扩展到了一般军事统帅和普通官吏。一方面使用文字的人员的数量空前增加了,更重要的是,文字需要表达的内容已经渗透到政治生活和军事行动中,文字本身的数量也空前地扩展了。这一切都导致篆书这种绘图式(易产生歧义)的、书写缓慢、字形难以统一的象形体越来越不能满足战争和统治的需要。一场文字改革迫在眉睫。 历史上称这次重要的文字变革为“隶变”。 # 1、笔与墨的形成与变革 在谈隶变之前,先插入一个小插曲,也就是书写工具的变革与成熟。 现代考古学发现,笔和墨都发端于新时期时代晚期,成形于商周,发展于秦汉。后代不同时期虽有不同程度的变革,但程度远不如秦汉。在仰韶文化的遗址中,发现了许多彩绘陶器,上面所绘的图案,清晰流畅,粗细得宜,色彩和水分饱和。这不是用一般竹木削成的笔所能表现出来的,而必须用蓄水多、柔软而有弹性的裹束起来的毛才能做到。毛笔的雏形就在这个时候出现了。其实也很简单,毛笔在作为文字书写工具之前,一定用于绘画。不仅在中国,即使在世界各国的水彩绘画和油画中仍旧使用类似毛笔结构的画笔。 毛笔作为书写工具从绘画中分离出来,则始于秦代。最早的书写用毛笔,大约可追溯到2000多年前。相传有“蒙恬始作秦笔”之说。当时,秦国大将蒙恬带兵在外作战,都要定期写战报呈送秦王。为了书写方便,当时都用竹签把战报写在绫帛上。竹签不吸水,没写几笔就要蘸墨,又极易弄脏绫帛,很不方便。情急之下,蒙恬换成麻做的枪缨捆在竹签上,蘸墨在绫帛上写。这样吸墨的问题就得到解决了,但是麻的纤维比较粗,写不了小字,也勾勒不出线条。后又换成野兔尾部的峰毛。动物皮毛纤维较细,既可以用来写较大的笔画,也可以用来勾勒出较小的线条,完全符合撰写的要求。可是兽毛富含油脂,吸墨不畅。在一次偶然的机会中,蒙恬发现石灰可以去掉动物油脂,然后将自制的动物毛笔放到石灰碱性水中浸泡,兔毛的油脂去掉了,变得柔顺起来。这样,书写用笔就产生了。 毛笔来历的传说,其真实性已不可考,但从故事中我们能够体会到毛笔的形成并非一帆风顺。 在河南殷墟出土的甲骨文上,有用朱砂和墨书写文字的痕迹,表明在甲骨文上书写的文字,红色是朱砂,墨色是碳素单质,这证明朱砂和墨在殷代就开始被巫人用来书写文字了。在商代石、玉、陶器的表面,也曾发现过墨书的遗存。墨的起源较笔为早。起先人们将墨与朱砂都作为一种绘画的颜料来使用,不过早期的墨都是采用天然材料,甚至用墨斗鱼腹中的墨汁为墨,进行绘画或染色。但是由于文字的广泛普及,墨的大规模生产就变得非常必要了。 秦汉及魏晋时期是墨史上一个重要的时期,当时就有石墨、油烟墨、松烟墨之分。其中,石墨即石油燃烧所制之墨;油烟墨则以燃油所获烟炱制做之墨;松烟墨则是燃烧松木所制之墨。最先得到规模发展的制墨方法是油烟墨,其制作方法并不复杂:找一个易燃的烛心,放在装满了油的锅里燃烧,锅上盖好铁盖或呈漏斗形的铁罩;等到铁盖或漏斗上布满烟炱,即可刮下来,集中到臼里,加入树胶,混合搅拌,使其成稠糊状;将成稠糊状的墨团,用手捏制成一定的形状,或放到模具里,模压制成具有一定形状的墨锭。这是传统烟墨制法。随着文字使用的进一步扩大,松烟墨逐渐取代油烟墨成为最主要的制墨法:与油烟制墨法原理差不多,通过燃烧松木来获取松烟粉末,然后与丁香、麝香、干漆和胶加工制成。工艺虽然复杂一些,但原料易得,而且价格低廉,迅速成为主要的制模方法和墨源。松烟墨的大量流行及“韦诞制墨方”的成型,使中国古代制墨工艺也在经历变革之后而进入了成熟期。 # 2、隶变的方式 笔与墨两种书写工具的成熟,使快速、简便和低成本的书写成为可能,为文字的变革提供了可靠的物质保证。 下面来谈谈“隶变”。首先要弄清楚什么是“隶”, “隶”即徒隶、官吏。笔者认为即使在最初也至少包含两大部门的官员,一部分是行政司法体系的公务员,也就是书隶,另外需要补充的是军队中的军事将领。秦朝崇尚法制,刑讼文案众多,需要撰写大量文书,而当时的官文篆书圆转回环,这就大大加重了公务员的工作量,而对于战事频繁发生的军队而言,篆书简直就是灾难。文字的书写效率与文字用途的矛盾就凸显出来了。这属于文字的第二类矛盾——文字与书写者之间的矛盾。 单从字体变化的角度而言,总的来讲,隶变就是将字形由圆形变为方形,笔势由纵势变为横势,线条由弧线变为直线,笔画由繁复变为简省。有关隶变的细节,在《试论汉字的隶变》一文中有详尽的说明。为了内容的完整性,现摘要若干重要的特点呈现如下,有关实例可以参考2.2节的对照实例。 ### 1.隶变中的“物理变化” 所谓物理变化,就是在变化过程中没有新事物生成的变化。在汉字隶变的方式中,有相当一部分汉字只是在之前文字的基础上对笔画、形体的厘定,至于表音、表义则与之前文字差别不大,我们姑且把这种变化称为隶变中的“物理变化”。 如表2.1所示,分别介绍了变曲为直、变直为曲、变断为连、变连为断、变繁为简、变长为短、点画位移7种基本隶变方式。在隶变过程中,这几种基本方式往往是交替综合使用的。例如,由繁为简就是变连为断、变长为短、点画位移三种基本方式的综合运用。 表2.1 “隶变”对字形的影响  ### 2.隶变中的“化学变化” 所谓化学变化,就是在变化过程中有新事物生成的变化。在汉字隶变的方式中,也有一部分汉字是通过隶变使它所代表的音义发生了相应的变化,为区别于上文介绍的单纯字形上的变化,姑且把这种变化称为隶变中的化学变化。 #### 1)省形 如果省掉字中的某个形符,往往会导致固有结构的无理化。这类省形,属于“物理变化”中的“变繁为简”一类。但有些字,即使省掉了一部分形符,仍然不影响表音表义。如靃作霍(居甲796A),省掉了一个“隹”,仍可以表示鸟在雨中飞,“其声霍然”的意思。 #### 2)省声 省声是指省掉形声字声符的一部分。按照汉字固有的形声原理,省略声符会影响该字的表音功能,但是有一类形声字的声符本身是形声字,省声省掉的只是这个形声字声符中的形符或部分形符,原有的声符保留了下来。这种形声字声符虽然省掉了一部分,仍然具有表音功能。譬如桮(睡50·69),从木否声,把“否”声省作“不”声。桮虽然省掉了原声符的一部分,但仍可以继续表音。 #### 3)换形 换形是指在隶变过程中,一些字的形旁被意义相近或与原字相关的形旁替代。被替代的有的是象形或会意字,有的是形声字。如谿字(孙膑109)从谷奚声,隶变后用“水”代“谷”,因为“水”与溪的字义有关。 #### 4)换声 隶变当中,有时会出现调换形声字声符的现象。如糧(银子59)作粮(礼器碑),把“量”声换成“良”声,掉换了声符,但对表音、表义影响不大。 #### 5)增形 增形是指隶变中在原来象形表意字或形声字的基础上增加表义的形旁。如然(睡23·12)是形声字,《武梁祠画像题字》作燃,加“火”旁。莫(睡20·185)原为会意字,《彭庐买地券》作暮,加“日”旁。增形后,增强了表意功能。 #### 6)义符讹变为声符 在隶变中有些字,其象形表意的形体发生了变化,讹变为声符。如恥(马春75)本从心耳声,隶变后作耻,因为“心”与“止”形相近,于是写字人把意符“心”改成“止”,而“止”成为新字的声符。 隶变之前,以往的篆字都是比物赋形用以表义,有很强的图画意味。这个时期的文字很不成熟,书写上具有很大的随意性。因此,不同地域对同一个字的写法不尽相同,导致读者的理解千差万别。通过隶变,原来的图画文字转化为抽象线条构成的符号文字,笔形也从圆转回环变成由点和直线构成的笔画。汉字增强的符号化特性,使文字的结构变得清晰、简洁、规范,不同地区的人阅读不会产生歧义。这是汉字逐渐走向成熟的一个重要的里程碑。 隶变不仅是古汉字一次重要的变革,也是古文字向今文字发展演变的重要转折点,是古今汉字的一个重要的分水岭。这次变革对后世的影响深远,后世的楷书、行书都是从隶书发展而来的。纵观中国五千年的文明史,字体的演变虽然缓慢、渐进,但却从未停止过。虽然隶书出现并很快通行起来,但与旧字体仍旧并存很长一段时间。到了汉、魏两代,小篆已经不通行了,而《说文解字》仍用篆书写成,但汉字的总体趋势是一个由繁难变简易的过程,这个趋势从未改变过。 # 3、汉字的符号化与结构 那么,什么是汉字的符号化呢?为什么汉字的符号化是汉字走向成熟的标志呢? 前面讲过,早期的文字,也就是甲骨文和小篆阶段的汉字,文字的最小划分单位为象形字,也称为独体字。在此之上通过指事、会意、形声、转注等造字法来构造出新的汉字,称为合体字。这样从结构上,语句中的单个字就包含了两种形式:一种是独体字;另一种是由独体字复合而成的合体字。 当一个独立的结构中包含着另一个完整的子结构,而这个子结构又可以作为另一种独立结构与其父结构同级使用时,这两种结构在识别上很容易产生混淆。在相当长时期的古文行文中,句子的划分没有统一的标点符号,有时候不容易划分出独体字和合体字。这样的文字在组成结构上的不一致给文字的识别带来了困难。汉字符号化的重要目的之一就是要解决这个问题。其解决的方法大致分为如下两个步骤。 第一,将原有边缘参差的图形化汉字——象形字,变为外形一致、大小相等的方块字。隶书阶段形成的字形是扁方形,到了楷书阶段就完全规整为正方形了。在书写时,每个字的大小都尽量相等,便于识别。 第二,对合体字和独体字进行各种形式的变形,使其内部的子结构失去独立性。也就是说,无论是合体字还是独体字,其内部的子结构都尽可能不使用独体字。如果无法避免,例如形声字的声部,那么这个独体字也要做变形处理。 通过一系列这样的措施,最终导致文字结构划分的最小单位产生了变化。汉字新生了一种统一的子结构,就是我们常说的部首,现代的文字研究中统称为部件。最早关于“部首”的记载出现在东汉许慎的《说文解字》中(以下简称《说文》)。在《说文》中,许慎以基本汉字“部件”为线索,把9 353字归并为540部,每部的首个字符即部首。部首是对形态相似的汉字的一种归类,属于从转注法角度观察和统计汉字的一种结果。每部之首因其统帅全部,具有一定的代表性,后来就逐渐发展成了汉字的部件,就是现代常称的偏旁部首。虽然《说文》一书并未出现“部首”一词,但后来研究学者都约定俗成地简称每部的首字为“部首”。这是汉字最早部件化的开始。 “偏旁”也是人们分析汉字结构时所使用的一个概念,它出现得要晚一些。其原因是从隋唐开始,官方逐渐废止了隶书,而开始通行楷书。楷书取代隶书是造纸术和科举制度的共同产物。一方面,纸的发明进一步降低了书写的成本,几乎中等以上的普通家庭都能负担得起读书、写字的费用。另一方面,科举制度使每个人都有机会通过学习文化而改变命运。因为考生的数量逐年增多,为了降低阅卷的成本,就需要通行一种更加简洁、美观大方的标准化字体,要求全国考生统一学习,作为答卷的统一用字。这是楷书得以兴起的内在原因。因此,文化和教育再一次得到了空前的发展。笔者认为,楷书的通行加速了汉字符号化的进程,而文字研究在“隶变”之后又一次达到了新的高潮。 对楷体的研究,再次涉及文字符号化的问题,“偏旁”一词作为专门术语,从唐宋时期开始在学者间通行起来。“偏旁”最先应该特指形声字类型合体字的左右两部。所谓“偏”是指左右结构合体字的左方,那么“旁”就是指合体字的右方。白话文常以二字构词,就把合体字各部位的各个部件统称为偏旁。 到了现代,偏旁和部首逐渐合成了一个词,它们都是指汉字的零件,比较正式的说法叫作“部件”。也就是说,汉字本身并不是构成书写的最小单位,偏旁部首才是汉字构成的最小单位。这么做是比较科学的,因为汉字数量庞大,特别在文言文中独字成词的现象很普遍,常用字就有7 000多个(现代汉语降为3 000多个),汉字总数近5万个(《康熙字典》)。即便历经多年寒窗苦读,单独记忆这么多字也不是一件容易的事情,更何况还要了解其读音和含义。 如果把汉字构造成偏旁部首库中某些元素的某种排列组合,也就是说,不论多么生僻的汉字都进行偏旁部首化分解(符号化)处理,将其限制在数量少得多的部件组合范围之内,那么汉字的构造就变得有规律得多。这样,任何一个汉字的构成就可以分解为如下两个步骤。 ❑ 一个字所包含的偏旁部首。有关所有偏旁部首的列表,现在基本上可以从任何一本汉语词典中都能查到,有兴趣的读者可以从如下网址中找到:http://baike. baidu.com/view/1433394.htm 。 ❑ 这几个偏旁部首以何种方式布局。也就是说,这些偏旁部首在位置上的排列组合。 根据汉字部件之间的位置关系,汉字结构的基本类型可以分为若干种,一说7种,一说8种。这里借用二级子结构的方式来说明,尽可能地包含所有的结构类型。将最初形成的独体字结构作为一类,合体字的每一类分为若干变式。下面列举一些常见的例子仅供参考。 #### 1)简洁而不可再分的独体字结构:字占格子中央,方方正正  ### 2)上下结构 (1)上小下大。  (2)上大下小。  (3)上中下结构。  #### 3)左右结构 (1)左小右大。  (2)左大右小。  (3)左右相等。  (4)左中右结构。  #### 4)半包围结构 (1)上三包结构。  (2)下三包结构。  (3)左下包结构。  (4)左三包结构。  (5)左上包结构。  (6)右上包结构。  #### 5)全包围结构  #### 6)对称结构(或称框架结构)  ### 7)品字结构  我们在记忆汉字时,首先单独记忆数量小得多的偏旁部首,再根据各个偏旁部首的位置和结构来记忆各种生僻的汉字,就会使汉字的学习变得容易多了,从而极大地降低了汉字的学习难度,即便现在看来也是一种极为精妙的思维! 在隋唐之后,汉语书面语逐渐向口语化的趋势发展,后世称为近代白话。它的一个鲜明的特征就是与口语相结合,出现大量的复音词和通俗的表达形式。此时,以独字为核心的古汉语又出现了新的发展。