(一)数据准备
1.上传所需文件(码格式编码格式:gbk|ASNI;文件格式:.csv;文件最大大小:64MB):
2.上传停用词文件(文件格式:.txt;文件最大大小:64MB)-用于剔除停用词:
3.上传同义词文件(文件格式:.txt;文件最大大小:64MB)-用于规范化词语表达:
格式如下:
华东师范大学 华东师大 华东师范 华师大 ecnu
上海 沪
4.对指定列进行分词,分词结果存放于“指定列名_cut”列:
输入需分词的列名:5.输入参数(鼠标悬停于输入框处可查看参数注释),点击按钮训练word2vec模型:
特征向量的维数(默认200):(二)主题数K值确立
6.生成一个初始的LDA模型(鼠标悬停于输入框处可查看参数注释),作为困惑度计算的基础:
预设主题数K值(默认5):7.主题数K值确立(数据准备中所上传文件的记录数,须不少于100条):
生成困惑度曲线(三)LDA模型训练与预测
8.训练生成最终的LDA模型:
提取的主题数(请输入最终确定的K值):9.计算摘要与主题相似度,结果存放于"Topic","Probability"两列中:
计算状态: