机械必威体育网址

 找回密码
 注册会员

QQ登录

只需一步,快速开始

搜索
查看: 2902|回复: 8
打印 上一主题 下一主题

介绍一种快速编辑pdf目录的方法

[复制链接]
跳转到指定楼层
1#
发表于 2015-6-13 09:12:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
现在我们肯定经常会看电子书。有时,希望给pdf加上目录,这样找起来就方便。但是手动一个个添加很麻烦。如果是一本书通读下来,那边读边做。读完也就做完了。但是如果我们不打算全读,或者目录很多,怎么办?比如机械设计手册第5版。目录就有18页。经过我一个晚上的研究,现给大家分享经验。1 w1 i: p0 ~8 U/ _  @. [% \
我们需要准备下列软件,一个是ABBYY fineread,一个是freepic2pdf。然后就是word和excel。主要原理就是用abbyy将pdf转化成文字,然后在word里进行查找替换(这是重点,难在替换的顺序)* [3 r1 G4 p9 G; V8 ~

4 u' n% r5 h, f; F( ]; O* [4 }8 Z' F6 N* t6 o, q* j
利用freepic2pdf,我们将pdf的目录提取出来,如下。我们注意到,目录是树状的。所以,我们只要按这个格式将目录写进txt,然后再用free把txt文件再贴进pdf就可以了。篇与章之间是差一个制表符的,也就是按一下tab键。这样就代表了一层。注意是tab按一下,不能空格去按两下。
, n/ w; ?+ l1 d3 s
( @# g4 H# p8 b) p% K9 J将目录导入abbyy,由于abbyy导入pdf是将整个pdf文件导入的,如果直接将设计手册导入,那文件会很大。所以我是先用虚拟打印机将目录那18页提出来。abbyy的识别率是比较高的,至少能识别85%吧。所以我们改动的文字比较少。
- X; M& X  }6 f/ c% J
8 g0 A: U1 z* d$ F3 _7 b( }/ ^将文字提取,然后保存成word。这里有页码,但实际上我们现在并不需要页码。这是我前面实验时截的。我们可以在abbyy里选择提取范围。6 N6 K$ J; X$ B5 y( o) g

  }2 _; `6 d9 ]  v' n将文字校对修改完毕。然后,我们要后我们把他复制粘贴进% V5 o' h6 `" u" P- m! H

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册会员

x

评分

参与人数 1威望 +1 收起 理由
luxiang821 + 1 热心助人,专业精湛!

查看全部评分

回复

使用道具 举报

2#
发表于 2015-6-13 09:33:23 | 只看该作者
学习了。
回复 支持 反对

使用道具 举报

3#
发表于 2015-6-13 11:51:09 | 只看该作者
非常好,谢谢。
回复 支持 反对

使用道具 举报

4#
发表于 2015-6-13 13:05:13 | 只看该作者
ABBYY里面可以直接校对修改文字;  b6 \2 {( }+ @3 r) C+ t, O; b
你这个只是把目录文字提取出来了,没有简历链接吧?
回复 支持 反对

使用道具 举报

5#
发表于 2015-6-13 13:43:07 | 只看该作者
学习了!
回复 支持 反对

使用道具 举报

6#
 楼主| 发表于 2015-6-13 14:08:14 | 只看该作者
我保存草稿,为什么就发出来了?
# @+ [/ ?/ @4 a. N我们把他复制粘贴进excel
( ]  r: X: t  H, P5 E; L  A" g) C8 e/ `/ D
然后,用abbyy将目录的页码提取出来,然后在word里修改好,再贴进excel里,页码贴C列,再看一下,书的页码对应的pdf页数,在B列用公式加上。这就是pdf的页数。
! c( n5 F5 _( J: ?; z
9 ]% J# J2 B2 C8 ]! i4 @3 ^弄完后再 把他们复制到word里  C. O" S: G: I/ i# ]

7 X, y9 q) P4 {9 y, o现在,我们要按那个格式把他们分出层次来。我们用查找替换。查找替换有个高级,下面有格式、特殊格式。我们查找里选择特殊格式的“任意数字”,替换为:“制表符+查找内容”。这样,全部替换,所以数字都会右移一格。但是这样不行,因为我们要移的是1膜片弹簧 2膜片弹簧这些,而页码是不移的。所以,我们要把他们区分开来。我们注意到,这里页码只有3位数和4位数,所以我们查找“^#^#^#^#”,替换为:"^&"格式选绿色。这样就把4个连着的数字变成绿色,比如1234,他就变绿,而123不会变。然后再查找“^#^#^#”,同样替换为绿色。这个顺序不能反。因为你要先换3位数,1234他就会把123变绿,而4不变。你再替换4位数,1234的4就不会变绿。
6 E/ D4 Z8 d# W/ ]. D* o
3 i% v/ C7 Z5 L  I' e3 e; L& W这样换了之后,还不行为什么呢。* N  X, d1 P# p+ ^4 {# i7 u# S
标题有这么几种结构
( a5 U$ F, F9 n7 Y  A: x- d1
9 {% \1 @4 m$ U+ E1.1  a6 x1 T! ?  u" g
1.2.1
) t& w" k$ M/ i% {. N8 u* q如果直接替换^#,1会变成“   1”,但1.1会变成“  1.  1”这样就不行了。所以我们对这些也要区分开。- G. u8 S' `! Y7 L( i
查找“^#.^#^#.^#^#”,替换为深红(颜色随便选),再依次替换“^#.^#^#.^#”,“^#.^#.^#^#”"^#.^#.^#"。这里顺序也要注意。比如2.5.13,你先按"^#.^#.^#"替换,3就不会被替换,那么后面移的时候,1和3就会分开了。之前我的失败步骤就不赘述了。然后替换3.2这样的。最后替换3这样的。这个顺序也不能反。你要先替换3.2这样的,那格式就是“^#.^#”,这样就会把2.5.13里的2.5给替换了,后面就无法替换13了。因此,我们用这个办法把几种层次的给区分开了。, [8 t2 U  h* d/ w+ r5 l

& J9 ~; S9 |4 g0 ~, s5 Y4 S5 H: b1 i0 ~* e) N0 f- ]) t. N$ R
然后,我们查找“^#.^#^#.^#^#”,深红,替换为:“^&”,这里顺序和前面那个一样,先两位后一位。至于层次的顺序,没关系,因为有颜色区分。这样,我们就把层次给分开了。然后,检查。结果发现,标题里面有数字。那个数字也会被替换掉。这个只能手动改颜色,但这个并不多。手动改也快的。最后替换完就是这样的。
% ?0 |. b* }7 y, T) z; e5 |" l3 C2 r0 F
全搞完后。复制到那个txt里,然后用freepic2弄进去。! Y/ W* T; E( U; q2 r$ Z% v7 e% M/ E* y

3 a! k3 ?/ i! z3 R. \+ l弄进pdf后,就是这样的。随机抽查几个,完全正确。" U! b4 J& S  y, R% _9 l" v$ G" D

  U+ i2 P1 B  P# R  E7 ?8 ?这样,我们就对一个有着18页目录的pdf文档完成了目录的自动编写。虽然这样也很耗时间,但是相比纯手工,效率提高了很多倍。主要时间是用在文字的校对上。
' x6 m# R/ g# j% v- f: X+ u
' \. Z$ t' Z0 L6 k5 f6 n

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册会员

x
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2015-6-13 14:09:07 | 只看该作者
seekfor 发表于 2015-6-13 13:05 5 ?6 K* i. x" ]" e0 o0 p7 q
ABBYY里面可以直接校对修改文字;
2 F+ N" n; e, B6 \- D你这个只是把目录文字提取出来了,没有简历链接吧?

4 {" M) Q) b% O0 Z% x; l4 N# _" i我没写完,保存草稿他就给发出来了。现在已经写完了& x2 ^8 r  w& Z/ a1 H& S
回复 支持 反对

使用道具 举报

8#
发表于 2015-6-13 14:41:17 | 只看该作者
第15军军长,才是个上校?而且,不务正业,乱发帖,泄漏军事机密!!!

点评

怎么没泄露军事机密?美帝已经知道,15军在研究《快速编辑pdf目录的方法》这个重要课题。  发表于 2015-6-13 22:04
我可没有泄露军事机密哦  发表于 2015-6-13 14:51
回复 支持 反对

使用道具 举报

9#
 楼主| 发表于 2015-6-13 17:41:43 | 只看该作者
我把目录的txt文件发上来。手册太大,不发了& c3 \- L3 G; R2 @, v; ^" ?

+ u3 ^% Z, i3 r" u0 a6 _

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册会员

x
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

小黑屋|手机版|Archiver|机械必威体育网址 ( 京ICP备10217105号-1,京ICP证050210号,浙公网安备33038202004372号 )

GMT+8, 2024-12-2 19:45 , Processed in 0.056435 second(s), 16 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表