每个人都应该知道的5个NLP代码库 - 服务器托管|北京服务器租用|机房托管租用|IDC托管租用|机房机柜带宽租用-价格及费用咨询

这些软件包可处理多种NLP任务，例如词性（POS）标注，依存分析，文档分类，主题建模等等。

NLP库的基本目标是简化文本预处理。

目前有许多工具和库用于解决NLP问题……但是只要掌握了其中的一些基本知识，就可以掌握相关基本知识。这就是为什么只介绍其中最常用的五个Python NLP库的原因。

但是在此之前，应该掌握有关NLP的各个组成领域和主题的一些基础知识。

扎实基础

对于学习自然语言处理的理论基础，网络上有丰富的资源可以学习：

斯坦福课程 — 深度学习中的自然语言处理（http://web.stanford.edu/class/cs224n/）

· Deeplearning.ai专业化 – 自然语言处理专业（https://www.coursera.org/specializations/natural-language-processing）

适用于基础知识的最佳书籍（又名NLP圣经） — 自然语言处理，语音识别和计算语言学导论（https://web.stanford.edu/~jurafsky/slp3/）

另一本不错的参考书 – 统计自然语言处理的基础（https://nlp.stanford.edu/fsnlp/）

1. Spacy

spaCy 是Python中比较出名，专门用于自然语言处理的库。它有助于实现最先进的效率和敏捷性，并拥有活跃的开源组织积极贡献代码。

加分项：

· 与所有主要的深度学习框架很好地结合，并预装了一些出色且有用的语言模型

· 由于Cython支持，速度相对较快

使用spaCy最适合做的事情

1. 词性（POS）标注：这是给单词标记制定语法属性（例如名词，动词，形容词，副词等）过程。

2. 实体识别：将文本中发现的命名实体标记到预定义实体类型。

3. 依存分析：分配语法依存标签，描述各个标记（例如主题或客体）之间的关系。

4. 文本分类：为整个文档或文档的一部分分配类别或标签。

5. 句子边界检测（SBD）：查找和分割单个句子。

官方课程

更多资源

一篇不错的博客文章，包括安装过程和其他Spacy用法（入门博客）：使用Python中的spaCy进行自然语言处理（https://realpython.com/natural-language-processing-spacy-python/）

Python Spacy简介（视频）— 视频讲座和教程（https://realpython.com/natural-language-processing-spacy-python/）

2. NLTK

NLTK是目前可用的最优秀的NLP模型训练库之一。该库是NLP入门python库。它是NLP的初学者常用的库。它具有许多预先训练的模型和语料库，可帮助我们非常快速地分析事物。

加分项：内置支持数十种语料库和训练完备的模型

使用NLTK可以实现一下需求：

1. 推荐：可以基于相似性来推荐内容。

2. 情感分析：通过自然语言处理来衡量人们的观点倾向

3. Wordnet [1]支持：我们可以使用Synset 在WordNet中查找单词。因此可以访问许多单词的同音异义词，上位词，同义词，定义，词族等

4. 机器翻译：用于将源语言翻译成目标语言

其他资源

学习NLTK的最佳资源是官方的教材：《使用自然语言工具包分析文本》（https://www.nltk.org/book/）

相关文章整理：Python的NLTK（自然语言工具包）教程（https://www.guru99.com/nltk-tutorial.html）

Wordnet文档— WordNet 3.0参考手册（https://wordnet.princeton.edu/documentation）

与spaCy专注于提供用于生产用途的软件不同，NLTK被广泛用于教学和研究— Wikipedia

3.Transformers

来自Transformers GitHub Repo

该Transformers库是开源，基于社区的信息库，使用和共享模型基于Transformer结构[2]如Bert[3]，Roberta[4]，GPT2 [5]，XLNet [6]，等等

该库提供自然语言理解（NLU）和自然语言生成（NLG）任务预训练模型下载。

加分项：超过32种采用100种以上语言的训练的预训练模型，以及TensorFlow 2.0和PyTorch之间的深度互操作性。最适合深度学习。

Transformers可以做到一下事情

1. 摘要生成：摘要是将文本/文章摘要为较短文本的任务。

2. 翻译：将文本从一种语言翻译成另一种语言的任务。

3. 文本生成：基于上下文，生成连贯的下文。

4. 抽取式问答：从给定问题的文本中提取答案的任务。

服务器托管，北京服务器托管，服务器租用，机房机柜带宽租用