资源编号:76140
NLP汉语自然语言处理原理与实践
自然语言处理
热度:93
本章讲解汉语自然语言处理的第一项核心技术:中文(或汉语)词汇自动切分,也称为中文分词技术。从1979年,中国就开始进行机器可读语料库的建设,专业的高校和研究机构纷纷建立大规模中文语料库。这个阶段历经十多年之久,由于语料库建设之初,许多工作都要从零开始,分词任务都由专业人员手工完成。这是一项繁重而枯燥的工作。即便如此,受到人为主观因素的影响,人工分词的标准并不统一,语料精度也不高。虽然是国家级的项目,所谓的“大规模”语料库的规模不过也就是百万级。因此,迫切需要统一的分词规范及适合大规模语料的高精度中文分词算法。