Skip to content

william-sv/docxParser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 

Repository files navigation

docxParser

解析docx文档,输出文章内容及图片(图片默认输出图片位置~)

方案

  1. 使用 zipfile 获取 docx文档中的 document.xml 数据
  2. 使用 xml.dom.minidom.parseString() 解析文档,取出docx文档中的段落内容
  3. 读取document.xml.rels 文件,匹配 图片资源的位置

用法

获取word文档内容,包含文字及图片所在位置(图片以 {image1} 表示)
# params: file_path  word文档绝对路径
# return: <p>文字</p>{image1}<p>文字</p>
DocxParser().get_content(file_path)

导出文档图片
# params: file_path word文档绝对路径
# params: save_path  图片保存地址
# return: 最终图片地址:图片保存地址/word/media/
DocxParser().get_media(file_pathsave_path)

About

解析docx文档,输出文章内容及图片(图片默认输出图片位置~)

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages