文本嵌入技术的研究与应用进展

被引:4
作者
赵悦阳 [1 ]
崔雷 [2 ]
机构
[1] 中国医科大学附属盛京医院图书馆
[2] 中国医科大学医学健康管理学院
关键词
文本嵌入; 自然语言处理; 内容分析法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
[目的]本文对国内外已经发表的自然语言处理领域有关文本嵌入的研究进行较深入的分析和对比,详细描述文本嵌入的知识结构和发展脉络,以及针对不同领域、不同数据集的模型改进方法,讨论流行的嵌入模型,比较每个模型在文本嵌入中的优缺点,同时指出文本嵌入所面临的挑战,提出可能的解决方案。[方法]检索Web of Science数据库、CNKI数据库和万方数据,获取国内外文本嵌入研究的相关文献,运用内容分析法对文献做系统梳理分析,对这些文献中利用的文本嵌入技术以及改进方案、建模思想、生成过程等方面进行对比与分析。[结果]经过去重和合并,保留内容最相关的61篇文献。文本嵌入方法可以归纳为三类:基于频率的文本嵌入、基于神经网络的文本嵌入和基于主题建模的文本嵌入。针对语料库的规模大小、多义词嵌入、通用嵌入的域适应等文本嵌入所面临的挑战,从被调查的研究文章中提出了可能的解决方案。
引用
收藏
页码:92 / 110
页数:19
相关论文
共 75 条
[1]   基于BERT的嵌入式文本主题模型研究 [J].
王宇晗 ;
林民 ;
李艳玲 ;
赵佳鹏 .
计算机工程与应用 , 2023, (01) :169-179
[2]   引入标签语义信息的多标签文本分类 [J].
张万杰 .
信息技术与信息化, 2021, (08) :8-11
[3]   基于Word2Vec词嵌入和双向LSTM模型对用户回答文本进行分类 [J].
张良君 .
电子技术与软件工程, 2021, (14) :208-211
[4]   面向功能信息的相似专利动态聚类混合模型 [J].
马建红 ;
张少光 ;
曹文斌 ;
王晨曦 .
计算机应用与软件, 2021, 38 (05) :201-207
[5]   融合序列和图结构的机器阅读理解 [J].
陈峥 ;
任建坤 ;
袁浩瑞 .
中文信息学报, 2021, 35 (04) :120-128
[6]   基于领域语义地图的区块链研究主题发现及演化分析 [J].
张爽 ;
刘非凡 ;
罗双玲 ;
夏昊翔 .
情报工程, 2021, 7 (02) :3-14
[7]   基于FastText字向量与双向GRU循环神经网络的短文本情感分析研究——以微博评论文本为例 [J].
范昊 ;
李鹏飞 .
情报科学, 2021, 39 (04) :15-22
[8]   融合BERT词嵌入和注意力机制的中文文本分类 [J].
孙红 ;
陈强越 .
小型微型计算机系统, 2022, 43 (01) :22-26
[9]   基于最优文档嵌入的《红楼梦》作者辨析 [J].
薛扬 ;
梁循 ;
谢华伦 ;
杜玮 .
中文信息学报, 2020, 34 (09) :97-110
[10]   基于标签语义注意力的多标签文本分类 [J].
肖琳 ;
陈博理 ;
黄鑫 ;
刘华锋 ;
景丽萍 ;
于剑 .
软件学报, 2020, 31 (04) :1079-1089