当前位置: 首页 > news >正文

网站后台进入突然不显示广州网站建设360元

网站后台进入突然不显示,广州网站建设360元,外贸网站电子建设,哪里有网站建设服务上一篇文章自己研究了一下如何批量将word或者ppt文件转换为PDF文件#xff0c;但是有时候我们也想要将pdf文件转换为word或者txt文件#xff0c;方便复制和处理。本文主要通过调用pdfminer3k模块进行处理。 说明#xff1a;本文是在Windows10下使用python最新的3.6版本虚拟…上一篇文章自己研究了一下如何批量将word或者ppt文件转换为PDF文件但是有时候我们也想要将pdf文件转换为word或者txt文件方便复制和处理。本文主要通过调用pdfminer3k模块进行处理。 说明本文是在Windows10下使用python最新的3.6版本虚拟环境 1. pdfminer3k相关链接GitHubhttps://github.com/jaepil/pdfminer3k PyPIhttps://pypi.org/project/pdfminer3k/ 2. 解析pdf文件用到的类  PDFParserPDF文档分析器从一个文件中获取数据  PDFDocumentPDF文档对象保存获取的数据和PDFParser是相互关联的  PDFResourceManagerPDF资源管理器用于存储共享资源如字体或图像。 LAParamsPDF参数分析器分析pdf文件参数 PDFPageAggregatorPDF聚合器读取获取的文档对象 PDFPageInterpreterPDF文档解析器处理页面内容变成Python可以解析  3.分析思路 整体思路为构造文档对象解析文档对象提取所需内容 4. 具体的代码 #作者cacho_37967865 #博客https://blog.csdn.net/sinat_37967865 #文件pdfConvertor.py #日期2018-04-29 #备注通过调用PDF解析器pdfminer3k批量将PDF文件转换为word或者txt文件先要在python环境安装pdfminer3k在python运行环境通过命令行方式运行pip3 install pdfminer3k # F:\python_env\PaChong_env # -*- coding: utf-8 -*-from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LTTextBoxHorizontal,LAParams import osdef pdf_to_word(folder,password):# 获取指定目录下面的所有文件files os.listdir(folder)# 获取pdf类型的文件放到一个列表里面pdfFiles [f for f in files if f.endswith(.pdf)]for pdfFile in pdfFiles:# 将pdf文件放到指定的路径下面pdfPath os.path.join(folder, pdfFile)# 设置将要转换后存放word文件的路径wdPath pdfPath# 判断是否已经存在对应的word文件如果不存在就加入到存放word的路径内if wdPath[-3:] ! doc:wdPath wdPath .docfn open(pdfPath, rb)# 创建一个PDF文档分析器PDFParserparser PDFParser(fn)# 创建一个PDF文档PDFDocumentdoc PDFDocument()# 连接分析器与文档parser.set_document(doc)doc.set_parser(parser)# 提供初始化密码如果无密码输入空字符串doc.initialize()# 检测文档是否提供txt转换不提供就忽略if not doc.is_extractable:print(PDFTextExtractionNotAllowed)else:# 创建PDF资源管理器PDFResourceManagerresource PDFResourceManager()# 创建一个PDF参数分析器LAParamslaparams LAParams()# 创建聚合器,用于读取文档的对象PDFPageAggregatordevice PDFPageAggregator(resource, laparamslaparams)# 创建解释器对文档编码解释成Python能够识别的格式PDFPageInterpreterinterpreter PDFPageInterpreter(resource, device)# doc.get_pages() 获取page列表for page in doc.get_pages():# 利用解释器的process_page()方法解析读取单独页数interpreter.process_page(page)# 这里layout是一个LTPage对象,里面存放着这个page解析出的各种对象,# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal等等,想要获取文本就获得对象的text属性# 使用聚合器get_result()方法获取页面内容layout device.get_result()for out in layout:if (isinstance(out, LTTextBoxHorizontal)):print(out.get_text())with open(wdPath, a,encodingutf-8) as f:f.write(out.get_text() \n)if __name__ __main__:pdf_to_word(F:\PythonProject\Pacong\docs,)
http://www.yutouwan.com/news/269202/

相关文章:

  • 经过学习网站开发后的心得体会网站建设哪里比较好
  • 写网站的教程wordpress网站怎么设置关键词
  • 书生网站找网站设计公司 看那些
  • 大型网站建设优化企业制作一款app需要多少钱
  • ppt模板网站排行网站建设方案200字
  • wordpress改图片aso安卓优化
  • 文章网站建设wordpress商城 淘宝客
  • 网站个人中心设计软件定制化开发公司
  • 宿迁市建设局网站首页文山专业网站建设报价
  • 建设网站的技术方案八桂云网站建设
  • 图片网站制作网站注册手机号安全吗
  • 做瞹瞹瞹免费网站哪个建设网站好
  • 在excel表里做网站模板室内设计联盟课堂
  • 手机网站设计只找亿企邦动画制作平台
  • 深圳建站公司推荐天津市网站建设
  • 宁夏做网站建设公司常德网站seo
  • 网站端网站开发凡科网微信小程序制作
  • 常州专门做网站的公司有哪些四川seo哪里有
  • seo网站优化推广网站离线浏览器 怎么做
  • 家电网站首页制作网站建设 贴吧
  • 网站域名到期怎么续费个人怎么建立微信公众号
  • 做网站老板嫌弃太丑谁的锅物流网站建设方案
  • 重庆网站建设开发公司大学生网站建设例题答案
  • 建设工程个人信息采集哪个网站用手机做诱导网站
  • 做网站的公司还市场吗公司网站建设知识
  • 慕枫宁波网站建设正规建网站企业
  • 网站域名注册商重庆网站设计制作价格
  • 浙江中钦建设有限公司网站济宁网站建设济宁
  • 营销型网站建设评价个人网站的优点
  • 美容加盟的网站建设濮阳网站注册