内容简介

近年来,语言变体研究受到了计算语言学界的广泛关注。《语言变体语料库构建及计算模型》从人工智能技术和语言变体相结合的视角,结合自然语言处理、机器学习、神经网络、语音识别、语料库语言学等相关技术,以作者的一系列研究成果为内容主线,系统介绍语言变体(相似语言)研究的语料库构建及计算模型。《语言变体语料库构建及计算模型》共9章,探索了相似语言及变体语料库的构建规范、多模态(语音和文本)语料库的标注、语言变体文字和语音处理的计算模型。《语言变体语料库构建及计算模型》对相似语言及语言变体中的关键技术进行较为深入的研究,提出相关问题的一些解决方法,并设计相应的算法和实验。实验表明,《语言变体语料库构建及计算模型》提出的这些方法有助于提高相似语言的分析性能,同时减少对大规模语料库的依赖性,为今后的相似语言变体分析研究奠定了重要基础,为同类研究提供了参考。

目录

目录
第1章相似语言及变体研究概述1
1.1相似语言及变体相关概念1
1.2相似语言及变体研究综述2
1.2.1语料库资源建设2
1.2.2计算模型4
1.2.3评测指标6
1.3本章小结7
参考文献7
第2章相关技术10
2.1传统技术10
2.1.1支持向量机10
2.1.2统计语言模型12
2.1.3互信息12
2.1.4相似度计算13
2.1.5隐马尔可夫模型15
2.2最新深度学习技术16
2.2.1词向量16
2.2.2神经网络语言模型17
2.2.3word2vec模型18
2.2.4多层感知机19
2.2.5循环神经网络20
2.2.6卷积神经网络21
2.3本章小结22
参考文献22
第3章海峡两岸及香港地区三元组和词对齐语料库构建24
3.1语言变体24
3.2词对齐定义27
3.3三元组和词对齐语料库28
3.3.1处理框架28
3.3.2标注规范29
3.3.3三元组语料30
3.3.4词对齐语料32
3.4本章小结34
参考文献35
第4章海峡两岸及香港地区词对齐抽取计算模型37
4.1相关工作37
4.2基于word2vec的两阶段词对齐抽取模型38
4.2.1阶段1模型38
4.2.2阶段2模型40
4.3基于词映射规则的词对齐抽取模型40
4.3.1词对齐算法41
4.3.2词映射规则后处理41
4.4实验设置及结果分析43
4.4.1实验设置43
4.4.2评测指标43
4.4.3实验结果分析43
4.5本章小结49
参考文献50
第5章句子级中国、新加坡、马来西亚语言类型识别计算模型52
5.1相关工作52
5.2语言类型识别模型53
5.2.1特征抽取53
5.2.2分类器构建56
5.3实验设置及结果分析57
5.3.1实验设置57
5.3.2实验结果分析58
5.4本章小结61
参考文献61
第6章多模态赣方言篇章平行语料库构建63
6.1赣方言概述63
6.2多模态赣方言篇章平行语料库构建65
6.2.1标注规范66
6.2.2标注过程67
6.2.3篇章级赣方言平行语料库标注实例67
6.2.4语料统计及标注质量68
6.3本章小结69
参考文献69
第7章句子级赣方言语言类型文本识别计算模型71
7.1基于特征抽取的赣方言识别模型71
7.1.1特征抽取71
7.1.2分类器构建71
7.2基于深度学习的赣方言识别模型71
7.3实验设置及结果分析72
7.3.1实验设置72
7.3.2实验结果分析73
7.4本章小结78
参考文献78
第8章赣方言语音识别计算模型80
8.1语音识别简介80
8.1.1语音识别框架80
8.1.2国内外研究现状83
8.2基Kaldi的赣方言语音识别86
8.2.1Kaldi简介86
8.2.2赣方言语音识别模型86
8.3实验设置及结果分析88
8.3.1实验设置88
8.3.2评测指标89
8.3.3实验结果分析89
8.4本章小结90
参考文献90
第9章听音识人——端到端赣方言点识别计算模型及平台92
9.1基于语音识别的赣方言点识别基准模型92
9.1.1模型框架92
9.1.2基准模型实验设置93
9.1.3基准模型实验结果分析94
9.2语音驱动的赣方言识别模型95
9.2.1基于语音特征的模型框架95
9.2.2混合模型96
9.3实验设置及结果分析96
9.3.1实验设置96
9.3.2实验结果分析96
9.4听音识人——赣方言智能处理平台100
9.4.1PC型界面100
9.4.2移动型界面102
9.5本章小结102
附录计算机自动抽取的海峡两岸及香港地区三元组105

其他推荐