🫐Python语义转导双向编码表征和spaCy(命名实体识别和文本分类)提取旅游信息
Python | 语义 | 转导双向编码表征 | spaCy | 命名实体识别 | 文本分类 | 统计信息 | 语言特征 | 规则匹配 | 词向量 | 语义相似度 | 转导模型 | BERT | 词性 (POS) | 标注器 | 依赖解析器 | 顺序统计模型 | 序列到序列的学习 | 形态特征 | 分布语义 | 文本矢量 | NumPy | Matplotlib | scikit-learn | 欧几里得距离 | 余弦距离和余弦相似度 | Pandas | 自然语言处理 | 意图识别 | Prodigy | Brat | TensorFlow | Keras | 长短期记䎲
Python和spaCy统计信息提取
spaCy核心操作
spaCy特征
语言特征
基于规则的匹配
spaCy机器学习
自定义spaCy模块
文本分类
spaCy和转导模型
网络中的典型信息搜索需要文本或字符串匹配。 当用户搜索信息时,搜索引擎会返回包含匹配字符串的相关文档。 用户需要通过相关链接浏览网站是否在感兴趣的范围内,非常耗时。
为了方便用户搜索,信息提取工具可以帮助用户找到相关文档。 典型的方法需要诸如词法分析、句法分析、语义分析等过程。 此外,根据域中的一组关键字,计算词频和词共现。 不同的算法提出了不同的规则来确定共现。 这些方法大多是手工编码的规则,可能高度依赖于用于推断文档含义的语言和域。
使用机器学习方法可以促进规则抽取过程。 预训练语言模型嵌入单词的现有表示并可用于自动提取它们的关系。 如今,有许多预训练的语言模型,例如 BERT。 它提供了一个上下文模型,也可以针对特定的语言和/或领域进行调整。 因此,它已被使用普遍作为基础并扩展到执行许多语言处理任务。
在本文中,我们专注于执行基本自然语言处理 (NLP) 任务的机器学习方法。 所讨论的任务是命名实体提取和文本分类。 我们的工作如下:
我们构建了一种方法来为这两个任务执行信息提取。
我们演示了两个框架的使用:BERT 和 SpaCy。 两者都提供预训练模型并提供可以适应目标的基本库。
鉴于旅游行业,因此,我们的最终目标是构建旅游本体。 旅游数据集用于证明这两种方法的性能。
背景
我们通过现有旅游本体的例子来探索旅游信息的例子类型。 由于我们专注于使用机器学习从文档中提取关系,因此我们在本文综述中描述了自然语言处理中的机器学习和深度学习。
自然语言处理中的机器学习
深度学习
方法
数据采集
词汇创建
处理多词词汇
提取训练语句
训练数据标注
关系类型提取
集成所有标记
源代码
Last updated
Was this helpful?