Python和spaCy统计信息提取
spaCy核心操作
spaCy特征
语言特征
基于规则的匹配
spaCy机器学习
自定义spaCy模块
文本分类
spaCy和转导模型
网络中的典型信息搜索需要文本或字符串匹配。 当用户搜索信息时,搜索引擎会返回包含匹配字符串的相关文档。 用户需要通过相关链接浏览网站是否在感兴趣的范围内,非常耗时。
为了方便用户搜索,信息提取工具可以帮助用户找到相关文档。 典型的方法需要诸如词法分析、句法分析、语义分析等过程。 此外,根据域中的一组关键字,计算词频和词共现。 不同的算法提出了不同的规则来确定共现。 这些方法大多是手工编码的规则,可能高度依赖于用于推断文档含义的语言和域。
使用机器学习方法可以促进规则抽取过程。 预训练语言模型嵌入单词的现有表示并可用于自动提取它们的关系。 如今,有许多预训练的语言模型,例如 BERT。 它提供了一个上下文模型,也可以针对特定的语言和/或领域进行调整。 因此,它已被使用普遍作为基础并扩展到执行许多语言处理任务。
在本文中,我们专注于执行基本自然语言处理 (NLP) 任务的机器学习方法。 所讨论的任务是命名实体提取和文本分类。 我们的工作如下:
我们演示了两个框架的使用:BERT 和 SpaCy。 两者都提供预训练模型并提供可以适应目标的基本库。
鉴于旅游行业,因此,我们的最终目标是构建旅游本体。 旅游数据集用于证明这两种方法的性能。
背景
我们通过现有旅游本体的例子来探索旅游信息的例子类型。 由于我们专注于使用机器学习从文档中提取关系,因此我们在本文综述中描述了自然语言处理中的机器学习和深度学习。
自然语言处理中的机器学习
深度学习
方法
数据采集
词汇创建
处理多词词汇
提取训练语句
训练数据标注
关系类型提取
集成所有标记
源代码