您好、欢迎来到现金彩票网!
当前位置:516棋牌游戏 > 文本挖掘 >

对pdf进行文本挖掘找出两个给定主题词的相关程度比如是否在一段

发布时间:2019-07-25 08:34 来源:未知 编辑:admin

  对pdf进行文本挖掘,找出两个给定主题词的相关程度,比如是否在一段中相隔多少词,怎样判断它们相关程度

  对pdf进行文本挖掘,找出两个给定主题词的相关程度,比如是否在一段中相隔多少词,怎样判断它们相关程度

  百度搜索了下,找到python的PDFMiner包可以将pdf转换为txt来预处理,是否一定要这样转换?转换以后,如何实现题目中的目的?我买了本python自然语言处理的书,是否对解决问题有用?求...

  百度搜索了下,找到python的PDFMiner包可以将pdf转换为txt来预处理,是否一定要这样转换?转换以后,如何实现题目中的目的?我买了本python自然语言处理的书,是否对解决问题有用?求指导。

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部这个需要知道很多东西吧,既然已经可以转换为文本了,剩下就是怎样处理文本了。

  你这种应该属于语义相似性的检测吧,方法比较多。比如:词频,互信息这类比较老的方法。

  最近比较火的应该是google的word2vec,这种可以通过语境挖掘词语之间的关系,将词语以向量的形式出现,可以通过最简单的距离公式去衡量词语之间的相似性。。python似乎也有开源的word2vec的工具包,你可以去github上搜索看看。也可以google一下word2vec,去这个项目的官网上看看,不过官网上似乎只有C语言版本的。。。我亲自试验了官网上训练好的词向量,感觉棒棒的。。。

http://dolphinfixtures.com/wenbenwajue/497.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有