返回 实例数据下载

(一)数据准备

1.上传所需文件(码格式编码格式:gbk|ASNI;文件格式:.csv;文件最大大小:64MB):

sample
上传结果:

2.上传停用词文件(文件格式:.txt;文件最大大小:64MB)-用于剔除停用词:

上传结果:

3.上传同义词文件(文件格式:.txt;文件最大大小:64MB)-用于规范化词语表达:
格式如下:
华东师范大学 华东师大 华东师范 华师大 ecnu
上海 沪

上传结果:

4.对指定列进行分词,分词结果存放于“指定列名_cut”列:

输入需分词的列名:
分词结果:
下载结果文件:

5.输入参数(鼠标悬停于输入框处可查看参数注释),点击按钮训练word2vec模型:

特征向量的维数(默认200):
至少出现次数(默认1):
并行数(默认2):
训练结果:
下载模型文件:

(二)主题数K值确立

6.生成一个初始的LDA模型(鼠标悬停于输入框处可查看参数注释),作为困惑度计算的基础:

预设主题数K值(默认5):
训练结果实例:

7.主题数K值确立(数据准备中所上传文件的记录数,须不少于100条):

生成困惑度曲线
主题个数(默认5,请和初始的LDA模型的“提取的主题数”保持一致,否则会导致报错):
计算状态:
结果:
图片尚未生成,生成后会显示
请根据困惑度曲线示意,选取困惑度最小值对应的主题数,作为最终LDA模型的K值

(三)LDA模型训练与预测

8.训练生成最终的LDA模型:

提取的主题数(请输入最终确定的K值):
训练结果:

下载模型文件:

9.计算摘要与主题相似度,结果存放于"Topic","Probability"两列中:

计算状态:
下载结果文件: