作者 |
邵浩 |
丛书名 |
出版社 |
电子工业出版社 |
ISBN |
9787121409998 |
简要 |
简介 |
内容简介书籍计算机书籍 预训练语言模型属于人工智能领域中自然语言处理领域的一个细分。 本书主要介绍预训练语言模型。预训练语言模型是自然语言处理领域的重要突破,得到了越来越广泛的关注,相关研究者和从业人员在实际应用的过程中,亟需一本理论翔实、代码细节充分的参考书。本书详细梳理了预训练语言模型的基本概念和理论基础,并通过实际代码的讲解, 阐述了具有代表性的预训练语言模型的实现细节,非常适合需要快速、全面掌握预训练语言模型的从业者阅读。 |
目录 |
第 1 章\t预训练语言模型简介\t1 1.1自然语言处理研究进展\t1 1.2预训练语言模型:为什么要预训练\t4 1.2.1预训练\t4 1.2.2自然语言表示\t5 1.2.3预训练语言模型发展史及分类\t8 第 2 章\t预训练语言模型基础知识\t13 2.1统计语言模型\t14 2.2神经网络语言模型\t17 2.3词向量:解决相似单词的距离问题\t19 2.4RNN 和 LSTM 基础\t25 2.5基于 RNN 的语言模型\t29 2.6ELMo:解决多义词的表示问题\t32 第 3 章\tTransformer 与 Attention\t37 3.1Transformer 的结构\t37 3.2Self-Attention:从全局中找到重点\t43 3.3位置编码:为什么有效\t54 3.4单向掩码:另一种掩码机制\t58 3.5代码解读:模型训练技巧\t61 3.5.1训练技巧 1:归一化层前置\t62 3.5.2训练技巧 2:梯度累积\t64 第 4 章\tGPT 系列模型\t69 4.1GPT 的结构:基于 Transformer Decoder\t69 4.2GPT 任务改写:如何在不同任务中使用 GPT\t71 4.3GPT 核心代码解读\t74 4.4GPT-2:Zero-shot Learning 的潜力\t79 4.4.1N-shot Learning\t79 4.4.2核心思想\t80 4.4.3模型结构\t81 4.5GPT-3:Few-shot Learning 的优秀表现\t82 4.5.1看词造句\t84 4.5.2语法纠错\t84 4.5.3GPT-3 的争议\t85 第 5 章\tBERT 模型\t87 5.1BERT:公认的里程碑\t87 5.2BERT 的结构:强大的特征提取能力\t88 5.3无监督训练:掩码语言模型和下句预测\t91 5.3.1MLM\t91 5.3.2NSP\t93 5.3.3输入表示\t94 5.4微调训练:适应下游任务\t95 5.4.1句对分类\t95 5.4.2单句分类\t96 5.4.3文本问答\t97 5.4.4单句标注\t99 5.5核心代码解读:预训练和微调\t100 5.5.1BERT 预训练模型\t101 5.5.2BERT 微调模型\t110 5.6BERT 总结\t117 第 6 章\t后 BERT 时代的模型\t119 6.1XLM:跨语言模型\t119 6.1.1优化方向\t119 6.1.2算法细节\t120 6.1.3 小结\t121 6.2MT-DNN:多任务融合\t121 6.2.1优化方向\t121 6.2.2算法细节\t122 6.2.3 小结\t124 6.3UniLM:获得文本生成能力\t124 6.3.1优化方向\t124 6.3.2算法细节\t125 6.3.3 小结\t127 6.4SpanBERT:扩大掩码范围\t127 6.4.1优化方向\t127 6.4.2算法细节\t128 6.4.3 小结\t129 6.5XLNet:置换自回归\t130 6.5.1优化方向\t130 6.5.2算法细节\t130 6.5.3 小结\t135 6.6ERNIE:知识图谱\t136 6.6.1优化方向\t136 6.6.2算法细节\t136 6.6.3 小结\t139 6.7VideoBERT:多模态融合\t139 6.7.1优化方向\t139 6.7.2算法细节\t140 6.7.3 小结\t141 6.8ALBERT:参数共享\t142 6.8.1优化方向\t142 6.8.2算法细节\t143 6.8.3 小结\t145 6.9RoBERTa:更大的模型\t145 6.9.1优化方向\t145 6.9.2算法细节\t146 6.9.3 小结\t146 6.10BART:编解码结构\t146 6.10.1优化方向\t146 6.10.2算法细节\t147 6.10.3 小结\t149 6.11T5:大一统模型\t149 6.11.1优化方向\t149 6.11.2算法细节\t150 6.11.3 小结\t153 6.12 总结\t154 第 7 章\t评测和应用\t157 7.1评测任务\t157 7.1.1通用评测任务\t157 7.1.2领域评测任务\t162 7.1.3其他评测任务\t167 7.2模型应用:Transformers 代码实战\t168 7.2.1 安装\t168 7.2.2快速上手指南\t170 7.2.3微调训练\t172 7.2.4BERT 应用\t175 7.3模型压缩:量化、剪枝和蒸馏\t179 7.3.1BERT 模型分析\t179 7.3.2 量化\t181 7.3.3 剪枝\t181 7.3.4 蒸馏\t182 7.3.5 结构无损压缩\t187 7.4模型扩展:多模态预训练\t188 7.4.1单流模型\t189 7.4.2双流模型\t191 第 8 章\t总结和展望\t195 8.1预训练语言模型的发展现状\t195 8.2预训练语言模型的未来展望\t199 参考文献\t203 |