您好、欢迎来到现金彩票网!
当前位置:516棋牌游戏 > 文本采掘 >

怎样采集pdf文档?有什么软件吗?

发布时间:2019-07-03 22:05 来源:未知 编辑:admin

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部如果PDF文档中是可以选择的纯文字,那你直接复制粘贴即可,如果是不可选择的纯文字的话,就可以按以下方法操作,你只要有两个软件,Adobe Reader和office 2003。

  用Adobe Reader打开这个PDF文档,点击“文件”菜单中的“打印”命令,打开“打印”对话框,将“打印机”下的“名称”中选择“Microsoft Office Document Image Writer”,然后点击旁边的“属性”按钮,在弹出的对话框中点击“高级”标签,选中“TIFF-黑白传真”,点击“浏览”按钮,选择TIFF文件要存放的路径,然后点击“确定”,再点击“确定”,进度条走完后就会在你指定的目录里生成一个TIFF文件。

  然后,在开始菜单里的“Microsoft Office 工具”下有一个“Microsoft Office Document Imaging”程序,运行这个程序,点击“打开”按钮,找到刚才生成的TIFF文件,将其打开,点击“工具”菜单中的“将文本发送到WORD”命令,在弹出的对话框中可以设置WORD文档存放的路径,然后点击“确定”,跳出一个对提示对话框,不用管它,直接“确定”。稍等片刻,就会将pdf上的文字显示在word里了。

  展开全部什么意思?如果你的意思是采集文字,不加密的可以直接复制,加密的文档没有专用的软件采集

  不过有一种办法:先截图再用ORC(光学字符识别)软件进行字符采集,汉字的一般就用汉王的,纯英文的我推荐用ABBYY 识别滤较高,office的Microsoft Office Document Imaging组件也有这个功能,不过图片要转成有限的几种格式才行。

  一般这种软件都是你把图片打开后框上你要提取的部分,然后使用orc功能就行了,然后会弹出识别文字的文本,在文本里面就可以进行复制操作,不过你一般都要校对才行,因为中文的识别率确实很低,基本上达不到一半,西文识别率比较高。

http://dolphinfixtures.com/wenbencaijue/280.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有