作者 |
[以] 谢伊·科恩(Shay Cohen) 等 |
丛书名 |
智能科学与技术丛书 |
出版社 |
机械工业出版社 |
ISBN |
9782110261804 |
简要 |
简介 |
内容简介书籍计算机书籍 ---------------------------8077118 - 自然语言处理中的贝叶斯分析(原书第2版)--------------------------- 本书涵盖了流利阅读NLP中贝叶斯学习方向的论文以及从事该领域的研究所需的方法和算法。这些方法和算法部分来自于机器学习和统计学,部分是针对NLP开发的。我们涵盖推理技术,如马尔科夫链、蒙特卡罗抽样和变分推理、贝叶斯估计和非参数建模。为了应对该领域的快速变化,本书新版增加了一个新的章节,关于贝叶斯背景下的表现学习和神经网络。我们还将介绍贝叶斯统计的基本概念,如先验分布、共轭性和生成式建模。最后,我们回顾了一些基本的NLP建模技术,如语法建模、神经网络和表示学习,以及它们在贝叶斯分析中的应用。 ---------------------------7891598 - 基于深度学习的自然语言处理--------------------------- 本书重点介绍了神经网络模型在自然语言处理中的应用。首先介绍有监督的机器学习和前馈神经网络的基本知识,如何将机器学习方法应用在自然语言处理中,以及词向量表示(而不是符号表示)的应用。然后介绍更多专门的神经网络结构,包括一维卷积神经网络、循环神经网络、条件生成模型和基于注意力的模型。最后讨论树形网络、结构化预测以及多任务学习的前景。 |
目录 |
[套装书具体书目] 7891598 - 基于深度学习的自然语言处理 - 9787111593737 - 机械工业出版社 - 定价 69 8077118 - 自然语言处理中的贝叶斯分析(原书第2版) - 9787111669579 - 机械工业出版社 - 定价 89 ---------------------------8077118 - 自然语言处理中的贝叶斯分析(原书第2版)--------------------------- 译者序 第2版前言 第1版前言 第1版致谢 第1章 基础知识 1 1.1 概率测度 1 1.2 随机变量 2 1.2.1 连续随机变量和离散随机变量 2 1.2.2 多元随机变量的联合分布 3 1.3 条件分布 4 1.3.1 贝叶斯法则 5 1.3.2 独立随机变量与条件独立随机变量 6 1.3.3 可交换的随机变量 6 1.4 随机变量的期望 7 1.5 模型 9 1.5.1 参数模型与非参数模型 9 1.5.2 模型推断 10 1.5.3 生成模型 11 1.5.4 模型中的独立性假定 13 1.5.5 有向图模型 13 1.6 从数据场景中学习 15 1.7 贝叶斯学派和频率学派的哲学(冰山一角) 17 1.8 本章小结 17 1.9 习题 18 第2章 绪论 19 2.1 贝叶斯统计与自然语言处理的结合点概述 19 2.2 第一个例子:隐狄利克雷分配模型 22 2.2.1 狄利克雷分布 26 2.2.2 推断 28 2.2.3 总结 29 2.3 第二个例子:贝叶斯文本回归 30 2.4 本章小结 31 2.5 习题 31 第3章 先验 33 3.1 共轭先验 33 3.1.1 共轭先验和归一化常数 36 3.1.2 共轭先验在隐变量模型中的应用 37 3.1.3 混合共轭先验 38 3.1.4 重新归一化共轭分布 39 3.1.5 是否共轭的讨论 39 3.1.6 总结 40 3.2 多项式分布和类别分布的先验 40 3.2.1 再谈狄利克雷分布 41 3.2.2 Logistic正态分布 44 3.2.3 讨论 48 3.2.4 总结 49 3.3 非信息先验 49 3.3.1 均匀不正常先验 50 3.3.2 Jeffreys先验 51 3.3.3 讨论 51 3.4 共轭指数模型 52 3.5 模型中的多参数抽取 53 3.6 结构先验 54 3.7 本章小结 55 3.8 习题 56 第4章 贝叶斯估计 57 4.1 隐变量学习:两种观点 58 4.2 贝叶斯点估计 58 4.2.1 最大后验估计 59 4.2.2 基于最大后验解的后验近似 64 4.2.3 决策-理论点估计 65 4.2.4 总结 66 4.3 经验贝叶斯 66 4.4 后验的渐近行为 68 4.5 本章小结 69 4.6 习题 69 第5章 采样算法 70 5.1 MCMC算法:概述 71 5.2 MCMC推断的自然语言处理模型结构 71 5.3 吉布斯采样 73 5.3.1 坍塌吉布斯采样 76 5.3.2 运算符视图 79 5.3.3 并行化的吉布斯采样器 80 5.3.4 总结 81 5.4 Metropolis-Hastings算法 82 5.5 切片采样 84 5.5.1 辅助变量采样 85 5.5.2 切片采样和辅助变量采样在自然语言处理中的应用 85 5.6 模拟退火 86 5.7 MCMC算法的收敛性 86 5.8 马尔可夫链:基本理论 88 5.9 MCMC领域外的采样算法 89 5.10 蒙特卡罗积分 91 5.11 讨论 93 5.11.1 分布的可计算性与采样 93 5.11.2 嵌套的MCMC采样 93 5.11.3 MCMC方法的运行时间 93 5.11.4 粒子滤波 93 5.12 本章小结 95 5.13 习题 95 第6章 变分推断 97 6.1 边缘对数似然的变分界 97 6.2 平均场近似 99 6.3 平均场变分推断算法 100 6.3.1 狄利克雷-多项式变分推断 101 6.3.2 与期望最大化算法的联系 104 6.4 基于变分推断的经验贝叶斯 106 6.5 讨论 106 6.5.1 推断算法的初始化 107 6.5.2 收敛性诊断 107 6.5.3 变分推断在解码中的应用 107 6.5.4 变分推断最小化KL散度 108 6.5.5 在线的变分推断 109 6.6 本章小结 109 6.7 习题 109 第7章 非参数先验 111 7.1 狄利克雷过程:三种视角 112 7.1.1 折棍子过程 112 7.1.2 中餐馆过程 114 7.2 狄利克雷过程混合模型 115 7.2.1 基于狄利克雷过程混合模型的推断 116 7.2.2 狄利克雷过程混合是混合模型的极限 118 7.3 层次狄利克雷过程 119 7.4 PitmanYor过程 120 7.4.1 Pitman-Yor过程用于语言建模 121 7.4.2 Pitman-Yor过程的幂律行为 122 7.5 讨论 123 7.5.1 高斯过程 124 7.5.2 印度自助餐过程 124 7.5.3 嵌套的中餐馆过程 125 7.5.4 距离依赖的中餐馆过程 125 7.5.5 序列记忆器 126 7.6 本章小结 126 7.7 习题 127 第8章 贝叶斯语法模型 128 8.1 贝叶斯隐马尔可夫模型 129 8.2 概率上下文无关语法 131 8.2.1 作为多项式分布集的PCFG 133 8.2.2 PCFG的基本推断算法 133 8.2.3 作为隐马尔可夫模型的PCFG 136 8.3 贝叶斯概率上下文无关语法 137 8.3.1 PCFG的先验 137 8.3.2 贝叶斯PCFG的蒙特卡罗推断 138 8.3.3 贝叶斯PCFG的变分推断 139 8.4 适配器语法 140 8.4.1 Pitman-Yor适配器语法 141 8.4.2 PYAG的折棍子视角 142 8.4.3 基于PYAG的推断 143 8.5 层次狄利克雷过程PCFG 144 8.6 依存语法 147 8.7 同步语法 148 8.8 多语言学习 149 8.8.1 词性标注 149 8.8.2 语法归纳 151 8.9 延伸阅读 152 8.10 本章小结 153 8.11 习题 153 第9章 表征学习与神经网络 155 9.1 神经网络与表征学习:为什么是现在 155 9.2 词嵌入 158 9.2.1 词嵌入的skip-gram模型 158 9.2.2 贝叶斯skip-gram词嵌入 160 9.2.3 讨论 161 9.3 神经网络 162 9.3.1 频率论估计和反向传播算法 164 9.3.2 神经网络权值的先验 166 9.4 神经网络在自然语言处理中的现代应用 168 9.4.1 循环神经网络和递归神经网络 168 9.4.2 梯度消失与梯度爆炸问题 169 9.4.3 神经编码器-解码器模型 172 9.4.4 卷积神经网络 175 9.5 调整神经网络 177 9.5.1 正则化 177 9.5.2 超参数调整 178 9.6 神经网络生成建模 180 9.6.1 变分自编码器 180 9.6.2 生成对抗网络 185 9.7 本章小结 186 9.8 习题 187 结束语 189 附录A 基本概念 191 附录B 概率分布清单 197 参考文献 203 ---------------------------7891598 - 基于深度学习的自然语言处理--------------------------- 译者序 前言 致谢 第1章引言 11自然语言处理的挑战 12神经网络和深度学习 13自然语言处理中的深度学习 14本书的覆盖面和组织结构 15本书未覆盖的内容 16术语 17数学符号 注释 第一部分有监督分类与前馈神经网络 第2章学习基础与线性模型 21有监督学习和参数化函数 22训练集、测试集和验证集 23线性模型 231二分类 232对数线性二分类 233多分类 24表示 25独热和稠密向量表示 26对数线性多分类 27训练和最优化 271损失函数 272正则化 28基于梯度的最优化 281随机梯度下降 282实例 283其他训练方法 第3章从线性模型到多层感知器 31线性模型的局限性:异或问题 32非线性输入转换 33核方法 34可训练的映射函数 第4章前馈神经网络 41一个关于大脑的比喻 42数学表示 43表达能力 44常见的非线性函数 45损失函数 46正则化与丢弃法 47相似和距离层 48嵌入层 第5章神经网络训练 51计算图的抽象概念 511前向计算 512反向计算(导数、反向传播) 513软件 514实现流程 515网络构成 52实践经验 521优化算法的选择 522初始化 523重启与集成 524梯度消失与梯度爆炸 525饱和神经元与死神经元 526随机打乱 527学习率 528minibatch 第二部分处理自然语言数据 第6章文本特征构造 61NLP分类问题中的拓扑结构 62NLP问题中的特征 621直接可观测特征 622可推断的语言学特征 623核心特征与组合特征 624n元组特征 625分布特征 第7章NLP特征的案例分析 71文本分类:语言识别 72文本分类:主题分类 73文本分类:作者归属 74上下文中的单词:词性标注 75上下文中的单词:命名实体识别 76上下文中单词的语言特征:介词词义消歧 77上下文中单词的关系:弧分解分析 第8章从文本特征到输入 81编码分类特征 811独热编码 812稠密编码(特征嵌入) 813稠密向量与独热表示 82组合稠密向量 821基于窗口的特征 822可变特征数目:连续词袋 83独热和稠密向量间的关系 84杂项 841距离与位置特征 842补齐、未登录词和词丢弃 843特征组合 844向量共享 845维度 846嵌入的词表 847网络的输出 85例子:词性标注 86例子:弧分解分析 第9章语言模型 91语言模型任务 92语言模型评估:困惑度 93语言模型的传统方法 931延伸阅读 932传统语言模型的限制 94神经语言模型 95使用语言模型进行生成 96副产品:词的表示 第10章预训练的词表示 101随机初始化 102有监督的特定任务的预训练 103无监督的预训练 104词嵌入算法 1041分布式假设和词表示 1042从神经语言模型到分布式表示 1043词语联系 1044其他算法 105上下文的选择 1051窗口方法 1052句子、段落或文档 1053句法窗口 1054多语种 1055基于字符级别和子词的表示 106处理多字单元和字变形 107分布式方法的限制 第11章使用词嵌入 111词向量的获取 112词的相似度 113词聚类 114寻找相似词 115同中选异 116短文档相似度 117词的类比 118改装和映射 119实用性和陷阱 第12章案例分析:一种用于句子意义推理的前馈结构 121自然语言推理与 SNLI数据集 122文本相似网络 第三部分特殊的结构 第13章n元语法探测器:卷积神经网络 131基础卷积池化 1311文本上的一维卷积 1312向量池化 1313变体 132其他选择:特征哈希 133层次化卷积 第14章循环神经网络:序列和栈建模 141RNN抽象描述 142RNN的训练 143RNN常见使用模式 1431接收器 1432编码器 1433传感器 144双向RNN 145堆叠RNN 146用于表示栈的RNN 147文献阅读的注意事项 第15章实际的循环神经网络结构 151作为RNN的CBOW 152简单RNN 153门结构 1531长短期记忆网络 1532门限循环单元 154其他变体 155应用到RNN的丢弃机制 第16章通过循环网络建模 161接收器 1611情感分类器 1612主谓一致语法检查 162作为特征提取器的RNN 1621词性标注 1622RNNCNN文本分类 1623弧分解依存句法分析 第17章条件生成 171RNN生成器 172条件生成(编码器解码器) 1721序列到序列模型 1722应用 1723其他条件上下文 173无监督的句子相似性 174结合注意力机制的条件生成 1741计算复杂性 1742可解释性 175自然语言处理中基于注意力机制的模型 1751机器翻译 1752形态屈折 1753句法分析 第四部分其他主题 第18章用递归神经网络对树建模 181形式化定义 182扩展和变体 183递归神经网络的训练 184一种简单的替代——线性化树 185前景 第19章结构化输出预测 191基于搜索的结构化预测 1911基于线性模型的结构化预测 1912非线性结构化预测 1913概率目标函数(CRF) 1914近似搜索 1915重排序 1916参考阅读 192贪心结构化预测 193条件生成与结构化输出预测 194实例 1941基于搜索的结构化预测:一阶依存句法分析 1942基于NeuralCRF的命名实体识别 1943基于柱搜索的NERCRF近似 第20章级联、多任务与半监督学习 201模型级联 202多任务学习 2021多任务设置下的训练 2022选择性共享 2023作为多任务学习的词嵌入预训练 2024条件生成中的多任务学习 2025作为正则的多任务学习 2026注意事项 203半监督学习 204实例 2041眼动预测与句子压缩 2042弧标注与句法分析 2043介词词义消歧与介词翻译预测 2044条件生成:多语言机器翻译、句法分析以及图像描述生成 205前景 第21章结论 211我们学到了什么 212未来的挑战 参考文献 |