作者 |
何塞·曼努埃尔·戈麦斯-佩雷斯,罗纳德·德诺,安德烈·加西亚-席尔瓦 伯纳黛特·夏普 弗洛伦斯·赛德斯维斯拉夫·卢巴泽斯基 |
丛书名 |
智能科学与技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782109181453 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------8083978 - 基于混合方法的自然语言处理:神经网络模型与知识图谱的结合--------------------------- 本书分为三个部分:基于知识图谱和神经网络的构建部分;结合知识图谱和神经网络的混合体系结构;实际应用部分。在三个部分中,主题通常是独立的,允许读者快速、轻松地阅读所需的信息。本书的两个特点是实用性和拥有前沿信息。书中准确地演示了如何创建和使用上下文表示,对意义嵌入和知识图谱嵌入有着明确的处理方法,解释了使用它们的语言模型和Transformer体系结构。 ---------------------------8062180 - 自然语言处理的认知方法--------------------------- 自然语言处理跨越了许多不同的学科,有时很难理解它们各自带来的贡献和挑战。本书探讨了自然语言处理与认知科学之间的关系,每章都由相关领域的专家撰写,内容涵盖语言理解、语言生成、词联想、词义消除歧义、词可预测性、文本生成和作者身份识别。本书适合对自然语言处理及其跨学科特性感兴趣的学生和研究人员。 |
目录 |
[套装书具体书目] 8062180 - 自然语言处理的认知方法 - 9787111631996 - 机械工业出版社 - 定价 99 8083978 - 基于混合方法的自然语言处理:神经网络模型与知识图谱的结合 - 9787111690696 - 机械工业出版社 - 定价 99 ---------------------------8083978 - 基于混合方法的自然语言处理:神经网络模型与知识图谱的结合--------------------------- 推荐序一 推荐序二 译者序 前言 第一部分 预备知识和构建模块 第1章 混合自然语言处理简介 2 1.1 知识图谱、嵌入和语言模型简史 2 1.2 自然语言处理中知识图谱和神经网络方法的结合 4 第2章 单词、意义和知识图谱嵌入 6 2.1 引言 6 2.2 分布式单词表示 6 2.3 词嵌入 7 2.4 意义和概念嵌入 8 2.5 知识图谱嵌入 9 2.6 本章小结 13 第3章 理解词嵌入和语言模型 14 3.1 引言 14 3.2 语言模型 15 3.2.1 统计语言模型 15 3.2.2 神经语言模型 16 3.3 NLP迁移学习的预训练模型微调 16 3.3.1 ELMo 16 3.3.2 GPT 17 3.3.3 BERT 17 3.4 机器人检测中预训练语言模型的微调 18 3.4.1 实验结果与讨论 21 3.4.2 使用Transformer库对BERT进行微调 21 3.5 本章小结 27 第4章 从文本中捕获意义作为词嵌入 28 4.1 引言 28 4.2 下载一个小文本语料库 29 4.3 一种学习词嵌入的算法 29 4.4 使用Swivel prep生成共现矩阵 30 4.5 从共现矩阵中学习嵌入 31 4.6 读取并检查存储的二进制嵌入 32 4.7 练习:从古腾堡工程中创建词嵌入 33 4.7.1 下载语料库并进行预处理 33 4.7.2 学习嵌入 34 4.7.3 检查嵌入 34 4.8 本章小结 34 第5章 捕获知识图谱嵌入 35 5.1 引言 35 5.2 知识图谱嵌入 35 5.3 为WordNet创建嵌入 37 5.3.1 选择嵌入算法:HolE 37 5.3.2 将WordNet知识图谱转换为所需输入 39 5.3.3 学习嵌入 44 5.3.4 检查嵌入结果 44 5.4 练习 47 5.4.1 练习:在自己的知识图谱上训练嵌入 47 5.4.2 练习:检查WordNet 3.0的预计算嵌入 47 5.5 本章小结 48 第二部分 神经网络与知识图谱的结合 第6章 从文本语料库、知识图谱和语言模型中构建混合表达 50 6.1 引言 50 6.2 准备工作和说明 51 6.3 Vecsigrafo的概念及构建方式 51 6.4 实现 53 6.5 训练Vecsigrafo 54 6.5.1 标记化和词义消歧 56 6.5.2 词汇表和共现矩阵 58 6.5.3 从共现矩阵学习嵌入 62 6.5.4 检查嵌入 64 6.6 练习:探索一个预先计算好的Vecsigrafo 66 6.7 从Vecsigrafo到Transigrafo 68 6.7.1 安装设置 70 6.7.2 训练Transigrafo 71 6.7.3 扩展知识图谱的覆盖范围 73 6.7.4 评估 Transigrafo 73 6.7.5 检查Transigrafo中的义项嵌入 75 6.7.6 探索Transigrafo嵌入的稳定性 77 6.7.7 额外的反思 81 6.8 本章小结 81 第7章 质量评估 82 7.1 引言 82 7.2 评估方法的概述 83 7.3 练习1:评估单词和概念嵌入 84 7.3.1 可视化探索 84 7.3.2 内在评估 85 7.3.3 词汇预测图 87 7.3.4 外在评估 90 7.4 练习2:评价通过嵌入获取的关系知识 90 7.4.1 下载embrela项目 91 7.4.2 下载生成的数据集 91 7.4.3 加载待评估的嵌入 92 7.4.4 学习模型 94 7.4.5 分析模型的结果 94 7.4.6 数据预处理:合并且增加字段 96 7.4.7 计算范围阈值和偏差数据集检测 97 7.4.8 发现统计上有意义的模型 99 7.4.9 关系型知识的评估结论 101 7.5 案例研究:评估和对比Vecsigrafo嵌入 101 7.5.1 比较研究 101 7.5.2 讨论 111 7.6 本章小结 114 第8章 利用Vecsigrafo捕获词法、语法和语义信息 116 8.1 引言 116 8.2 方法 118 8.2.1 Vecsigrafo:基于语料的单词–概念嵌入 118 8.2.2 联合嵌入空间 119 8.2.3 嵌入的评估 119 8.3 评估 120 8.3.1 数据集 121 8.3.2 单词相似度 121 8.3.3 类比推理 124 8.3.4 单词预测 125 8.3.5 科学文档的分类 127 8.4 讨论 129 8.5 练习:使用surface form对科学文献进行分类 130 8.5.1 导入所需的库 130 8.5.2 下载surface form的词嵌入和SciGraph论文 131 8.5.3 读取并准备分类数据集 131 8.5.4 surface form的词嵌入 133 8.5.5 创建嵌入层 134 8.5.6 训练一个卷积神经网络 134 8.6 本章小结 136 第9章 知识图谱的词嵌入空间对齐与应用 137 9.1 引言 137 9.2 概述及可能的应用 138 9.2.1 知识图谱的补全 139 9.2.2 超越多语言性:跨模态的词嵌入 139 9.3 词嵌入空间的对齐技术 140 9.3.1 线性对齐 140 9.3.2 非线性对齐 146 9.4 练习:寻找古代英语和现代英语的对应 146 9.4.1 下载小型文本语料库 146 9.4.2 学习基于老莎士比亚语料库的Swivel词嵌入 147 9.4.3 在WordNet之上加载UMBC的Vecsigrafo 149 9.4.4 练习的结论 149 9.5 本章小结 150 第三部分 应用 第10章 一种虚假信息分析的混合方法 152 10.1 引言 152 10.2 虚假信息检测 153 10.2.1 定义和背景 153 10.2.2 技术方法 155 10.3 应用:构建断言数据库 156 10.3.1 训练一个语义断言编码器 156 10.3.2 创建嵌入的一个语义索引并进行探索 165 10.3.3 以STS-B开发数据集填充索引 165 10.3.4 为一个断言数据集创建另一个索引 166 10.3.5 加载数据集到一个Pandas的DataFrame 167 10.3.6 构建一个断言数据库的总结 171 10.4 应用:假新闻和欺骗性语言检测 171 10.4.1 使用深度学习的基本文档分类 172 10.4.2 使用HolE的嵌入 176 10.4.3 使用Vecsigrafo UMBC WNet的嵌入 178 10.4.4 HoLE和UMBC嵌入的结合 179 10.4.5 讨论与结果 180 10.5 通过一个知识图谱得到传播虚假信息的评分 182 10.5.1 Data Commons Claim-Review的知识图谱 182 10.5.2 不可信度评分的传播 187 10.6 本章小结 190 第11章 科学领域中文本与视觉信息的联合学习 191 11.1 引言 191 11.2 图例–标题对应分析的模型与架构 193 11.3 数据集 195 11.4 评估图例–标题的对应分析任务 195 11.5 图例–标题的对应分析与图像–句子匹配的对比 197 11.6 标题与图例的分类 199 11.7 教科书问答的多模态机器理解 200 11.8 图例–标题对应分析的练习 201 11.8.1 预备步骤 201 11.8.2 图例–标题的对应分析 203 11.8.3 图像–句子匹配 216 11.8.4 标题/图例分类 219 11.8.5 教科书问答 223 11.9 本章小结 228 第12章 展望自然语言处理的未来 229 12.1 最终的评论、想法和愿景 229 12.2 趋势是什么?社会各界的意见 231 参考文献 238 ---------------------------8062180 - 自然语言处理的认知方法--------------------------- 译者序 前言 作者名单 第1章 延迟解释、浅层处理和构式:“尽可能解释”原则的基础 1 1.1 引言 1 1.2 延迟处理 2 1.3 工作记忆 5 1.4 如何识别语块:分词操作 7 1.5 延迟架构 10 1.5.1 分段和存储 11 1.5.2 内聚聚集 12 1.6 结论 15 1.7 参考文献 16 第2章 人类关联规范能否评估机器制造的关联列表 19 2.1 引言 19 2.2 人类语义关联 20 2.2.1 单词关联测试 20 2.2.2 作者的实验 21 2.2.3 人类关联拓扑 22 2.2.4 人类关联具有可比性 24 2.3 算法效率比较 26 2.3.1 语料库 26 2.3.2 LSA源关联列表 27 2.3.3 LDA源列表 28 2.3.4 基于关联比率的列表 28 2.3.5 列表比较 29 2.4 结论 33 2.5 参考文献 34 第3章 文本词如何在人类关联网络中选择相关词 37 3.1 引言 37 3.2 网络 40 3.3 基于文本的激励驱动的网络提取 42 3.3.1 子图提取算法 42 3.3.2 控制流程 43 3.3.3 最短路径提取 44 3.3.4 基于语料库的子图 46 3.4 网络提取流程的测试 46 3.4.1 进行测试的语料库 46 3.4.2 提取子图的评估 46 3.4.3 有向和无向子图提取:对比 48 3.4.4 每个激励产生的结果 49 3.5 对结果和相关工作的简要讨论 54 3.6 参考文献 57 第4章 反向关联任务 59 4.1 引言 59 4.2 计算前向关联 63 4.2.1 步骤 63 4.2.2 结果和评估 65 4.3 计算反向关联 67 4.3.1 问题 67 4.3.2 步骤 67 4.3.3 结果和评估 71 4.4 人类的表现 73 4.4.1 数据集 73 4.4.2 测试流程 75 4.4.3 评估 76 4.5 机器性能 77 4.6 讨论、结果和展望 78 4.6.1 人类的反向关联 78 4.6.2 机器的反向关联 80 4.7 致谢 82 4.8 参考文献 82 第5章 词汇的隐藏结构与功能 85 5.1 引言 86 5.2 方法 86 5.2.1 词典图 86 5.2.2 心理语言学变量 90 5.2.3 数据分析 91 5.3 内核、卫星、核心、MinSet以及词典余下部分的心理语言学属性 93 5.4 讨论 96 5.5 未来工作 99 5.6 参考文献 101 第6章 用于词义消歧的直推式学习博弈 103 6.1 引言 103 6.2 基于图的词义消歧 104 6.3 半监督学习方法 107 6.3.1 基于图的半监督学习 107 6.3.2 博弈论和博弈动态 108 6.4 词义消歧博弈 110 6.4.1 图构造 110 6.4.2 策略空间 111 6.4.3 收益矩阵 111 6.4.4 系统动力学 112 6.5 评估 113 6.5.1 实验设置 113 6.5.2 评估结果 114 6.5.3 对比先进水平算法 116 6.6 结论 117 6.7 参考文献 117 第7章 用心学写:生成连贯文本的问题 121 7.1 问题 121 7.2 次优文本及其相关原因 123 7.2.1 缺乏连贯性或凝聚力 124 7.2.2 错误引用 125 7.2.3 无动机的主题转移 126 7.3 如何解决任务的复杂性 127 7.4 相关研究 128 7.5 关于构建辅助写作过程的工具的假设 130 7.6 方法论 133 7.6.1 句法结构的识别 135 7.6.2 语义种子词的识别 135 7.6.3 单词对齐 137 7.6.4 确定对齐单词的相似性值 137 7.6.5 确定句子之间的相似性 141 7.6.6 基于句子相似性值的聚类 142 7.7 实验结果和评估 142 7.8 展望和总结 145 7.9 参考文献 146 第8章 面向著述属性的基于序贯规则挖掘的文体特征 149 8.1 引言和研究动机 149 8.2 著述属性过程 151 8.3 著述属性的文体特征 152 8.4 针对文体分析的时序数据挖掘 154 8.5 实验设置 155 8.5.1 数据集 156 8.5.2 分类方案 157 8.6 结果和讨论 158 8.7 结论 162 8.8 参考文献 162 第9章 一种并行的、面向认知的基频估计算法 165 9.1 引言 165 9.2 语音信号分割 167 9.2.1 语音和停顿段 168 9.2.2 浊音和清音区 169 9.2.3 稳定和不稳定区间 170 9.3 稳定区间的F0估计 171 9.4 F0传播 173 9.4.1 控制流 174 9.4.2 峰值传播 175 9.5 不稳定的浊音区域 178 9.6 并行化 178 9.7 实验和结果 179 9.8 结论 180 9.9 致谢 181 9.10 参考文献 182 第10章 基于完形填充、脑电图和眼球运动数据对n元语言模型、主题模型和循环神经网络的基准测试 185 10.1 引言 186 10.2 相关工作 187 10.3 方法 188 10.3.1 人类绩效评估 188 10.3.2 语言模型的三种风格 189 10.4 实验设置 192 10.5 结果 193 10.5.1 可预测性结果 193 10.5.2 N400振幅结果 196 10.5.3 单一注视时延结果 198 10.6 讨论和结论 200 10.7 致谢 202 10.8 参考文献 202 术语表 207 |