您好、欢迎来到现金彩票网!
当前位置:516棋牌游戏 > 文本挖掘 >

文本挖掘小探索:避孕药内容主题分析

发布时间:2019-05-31 09:34 来源:未知 编辑:admin

  舆情监测一直是众多品牌关注的地方,尤其品牌想知道在品牌推广,品牌策略,品牌广告中出现的问题,从而能进行策略上的改进,但是现在很多人都是读帖子,笔者在4年前做舆情分析时候就是读帖子,至今没有太多改善,关注舆情监测中的主题挖掘部分,主题挖掘可以使数据分析师,减轻工作量,去掉读帖子等一系列等的复杂工作,大致了解主题规律。

  本文是笔者早前发在某网站上的,由于笔者最近太忙,将本文修改下呈现给大家:

  (1)Rwordseg:(4年前用的分词包,不知道现在更新与否),分词包就是让R语言识别中文,按照单词来视为一个值

  (2)插入单词:因为Rwordseq中文词性包含不了其他奇怪词汇,例如: 妈富隆、优思明、短期避孕药、治疗多囊等。插入单词作为模型的变量值

  数据探索:大概了解下数据现状1.根据变量值(单词)统计各个单词出现的次数

  根据以上数据探索的词频,词作为colname,词频表示数值,每一行是帖子内容作为id标示

  即每个帖子出现了某词的词频的次数,帖子1中出现避孕药2次,优思明4次,囊中1次

  由于tm包中的停用词()都是英文(可以输入stopwords()查看),所以大家可以去网上查找中文的停用词,用removeWords函数去除语料库中的停用词:

  生成语料库之后,生成词项-文档矩阵(Term Document Matrix,TDM),顾名思义,TDM是一个矩阵,矩阵的列对应语料库中所有的文档,矩阵的行对应所有文档中抽取的词项,该矩阵中,一个[i,j]位置的元素代表词项i在文档j中出现的次数。

  默认的加权方式是TF,即词频,这里采用Tf-Idf,该方法用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度:

  在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。

  逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

  某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于保留文档中较为特别的词语,过滤常用词。

  LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”

  确切来说,这10个主题还需要优化,文本经过人工看完应该提炼的的是优思明使用目的,大部分集中在避孕,安全,发胖,治疗痤疮等,少部分会集中副作用等。

http://dolphinfixtures.com/wenbenwajue/45.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有