赵走x博客
网站访问量:151534
首页
书籍
软件
工具
古诗词
搜索
登录
2、NLTK 入门
1、自然语言工具包(NLTK)
2、NLTK 入门
资源编号:75982
用Python3进行自然语言处理
自然语言处理
热度:83
下载语料。
首先应该安装NLTk。可以从http://www.nltk.org/ 免费下载。按照说明下载适合你的操作系统的版本。 安装完NLTK 之后,输入下面两个命令来安装本书所需的数据,然后选择book,如图1-1 所示。 ``` >>> import nltk >>> nltk.download() ```  图1-1. 下载NLTK 图书集:使用nltk.download()浏览可用的软件包。下载器上的Collections 选项卡显示软件包如何被打包分组。选择book 标记所在行,可以获取本书的例子和练习所需的全部数据。这些数据包括约30 个压缩文件,需要100MB 硬盘空间。完整的数据集(即下载器中的all)在本书写作期间大约是这个大小的5 倍,还在不断扩充。 一旦数据被下载到你的机器,你就可以使用Python 解释器加载其中一些。第一步是在Python 提示符后输入一个特殊的命令,告诉解释器去加载一些我们要用的文本: ``` from nltk.book import ``` 这条语句是说“从NLTK 的book 模块加载所有的东西”。这个book 模块包含你阅读本章所需的所有数据。在输出欢迎信息之后,将会加载几本书的文本(这将需要几秒钟)。下面连同你将看到的输出一起再次列出这条命令,注意拼写和标点符号的正确性。 ``` >>> from nltk.book import * *** Introductory Examples for the NLTK Book *** Loading text1, ..., text9 and sent1, ..., sent9 Type the name of the text or sentence to view it. Type: 'texts()' or 'sents()' to list the materials. text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G . K . Chesterton 1908 ``` 任何时候我们想要找到这些文本,只需要在Python 提示符后输入它们的名字。 ``` >>> text1
>>> text2
``` 现在我们可以和这些数据一起来使用Python 解释器,我们已经准备好上手了。