Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

pdf中的流程图转word的问题 #260

Open
UchihaArk opened this issue Jan 24, 2024 · 6 comments
Open

pdf中的流程图转word的问题 #260

UchihaArk opened this issue Jan 24, 2024 · 6 comments
Labels
question discussion

Comments

@UchihaArk
Copy link

当pdf中包含流程图时候,会有如下情况

  1. 会将流程图的框架转为图片,而文字在图片后面
  2. 流程图整体转为一张图片,但在图片后面会有和图片相同的文字重叠在一起

如图:
image
右侧是原本的转换效果,左侧是拖动出的图
image
原本是重叠在一起的,拖动以展示效果

尝试调整过以下参数:

zh.convert(docx_file, start=0, end=None, pages=None,
           float_image_ignorable_gap=10,
           connected_border_tolerance=2,
           min_svg_gap_dx=30,
           min_svg_gap_dy=10,
           parse_stream_table=True)
@UchihaArk
Copy link
Author

附:pdf文件
008.pdf

@dothinking
Copy link
Collaborator

dothinking commented Jan 24, 2024

感谢提出问题及测试文件。

  1. 会将流程图的框架转为图片,而文字在图片后面

这是目前设定的处理方式。pdf2docx做不到在Word中创建类似的流程图,而是整体转为背景图片,然后把文字“拼”在对应的位置。也就是你第一张图中展示的效果。

  1. 流程图整体转为一张图片,但在图片后面会有和图片相同的文字重叠在一起

使用最新版v0.5.8测试,结果和上一条一样,不带重叠的文字。估计是之前版本的问题。

@dothinking dothinking added the question discussion label Jan 24, 2024
@UchihaArk
Copy link
Author

UchihaArk commented Jan 24, 2024

感谢您的回复!

这是目前设定的处理方式。pdf2docx做不到在Word中创建类似的流程图,而是整体转为背景图片,然后把文字“拼”在对应的位置。也就是你第一张图中展示的效果。

这个我了解了

使用最新版v0.5.8测试,结果和上一条一样,不带重叠的文字。估计是之前版本的问题。

我目前使用的就是v0.5.8,您看下图二位置的转换情况:文字是拼在了对应的位置,但是整体转为的背景图片也是包含文字的,这个和第一张图情况不同

dothinking added a commit that referenced this issue Jan 28, 2024
@dothinking
Copy link
Collaborator

我目前使用的就是v0.5.8,您看下图二位置的转换情况:文字是拼在了对应的位置,但是整体转为的背景图片也是包含文字的,这个和第一张图情况不同

你是对的,抱歉一开始我是用本地代码测试的,相比v0.5.8刚好修复了你的问题。请先测试下面的临时修复版本,没问题的话后面通过v0.5.9发布。谢谢。

安装方法:下载和解压附件,然后安装(注意指向whl文件的路径)

pip install your/path/to/pdf2docx-0.5.8a1-py3-none-any.whl

pdf2docx-0.5.8a1-py3-none-any.whl.zip

@UchihaArk
Copy link
Author

你是对的,抱歉一开始我是用本地代码测试的,相比v0.5.8刚好修复了你的问题。请先测试下面的临时修复版本,没问题的话后面通过v0.5.9发布。谢谢。

试了下确实没有重影问题了,请问下假如我想都转为一张图片,也就是字和图形都嵌入到图片中,可以修改什么参数或者哪处源码解决呢?

@cokuehuang
Copy link

我目前使用的就是v0.5.8,您看下图二位置的转换情况:文字是拼在了对应的位置,但是整体转为的背景图片也是包含文字的,这个和第一张图情况不同

你是对的,抱歉一开始我是用本地代码测试的,相比v0.5.8刚好修复了你的问题。请先测试下面的临时修复版本,没问题的话后面通过v0.5.9发布。谢谢。

安装方法:下载和解压附件,然后安装(注意指向whl文件的路径)

pip install your/path/to/pdf2docx-0.5.8a1-py3-none-any.whl

pdf2docx-0.5.8a1-py3-none-any.whl.zip

It works for me! THANKS!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question discussion
Projects
None yet
Development

No branches or pull requests

3 participants