机械必威体育网址

标题: 介绍一种快速编辑pdf目录的方法 [打印本页]

作者: 第15军军长    时间: 2015-6-13 09:12
标题: 介绍一种快速编辑pdf目录的方法
现在我们肯定经常会看电子书。有时,希望给pdf加上目录,这样找起来就方便。但是手动一个个添加很麻烦。如果是一本书通读下来,那边读边做。读完也就做完了。但是如果我们不打算全读,或者目录很多,怎么办?比如机械设计手册第5版。目录就有18页。经过我一个晚上的研究,现给大家分享经验。
% G! ~9 q9 ?7 H/ E" o0 P1 [1 n我们需要准备下列软件,一个是ABBYY fineread,一个是freepic2pdf。然后就是word和excel。主要原理就是用abbyy将pdf转化成文字,然后在word里进行查找替换(这是重点,难在替换的顺序)) O) ?: ?/ ?( R2 F0 [

. Q8 l8 [1 k# \; N
( F; G  y6 m9 S, |( D利用freepic2pdf,我们将pdf的目录提取出来,如下。我们注意到,目录是树状的。所以,我们只要按这个格式将目录写进txt,然后再用free把txt文件再贴进pdf就可以了。篇与章之间是差一个制表符的,也就是按一下tab键。这样就代表了一层。注意是tab按一下,不能空格去按两下。
* G5 n: `4 [9 k  R! N2 E8 }[attach]356353[/attach]% d3 E9 G0 N0 @( f. H) m8 A* @
将目录导入abbyy,由于abbyy导入pdf是将整个pdf文件导入的,如果直接将设计手册导入,那文件会很大。所以我是先用虚拟打印机将目录那18页提出来。abbyy的识别率是比较高的,至少能识别85%吧。所以我们改动的文字比较少。
) V' k0 n( H0 W" F[attach]356339[/attach]
* G' t. J. w/ \. [& D0 P5 `" z; K将文字提取,然后保存成word。这里有页码,但实际上我们现在并不需要页码。这是我前面实验时截的。我们可以在abbyy里选择提取范围。6 t0 O# \! [2 S& `
[attach]356340[/attach]
/ Q0 K. l8 \9 l( L* G将文字校对修改完毕。然后,我们要后我们把他复制粘贴进- N1 B9 c8 l# I; w* E0 o

作者: wanliruyi    时间: 2015-6-13 09:33
学习了。
作者: yjlcmiw    时间: 2015-6-13 11:51
非常好,谢谢。
作者: seekfor    时间: 2015-6-13 13:05
ABBYY里面可以直接校对修改文字;
; ~7 O( k' ^/ [你这个只是把目录文字提取出来了,没有简历链接吧?
作者: 山中渔人    时间: 2015-6-13 13:43
学习了!
作者: 第15军军长    时间: 2015-6-13 14:08
我保存草稿,为什么就发出来了?! Z$ N2 e7 A0 j, E
我们把他复制粘贴进excel2 @. t* ~+ X4 v9 [' s$ J& B
[attach]356365[/attach]$ h/ g0 Z0 a: s& j; z2 B) E
然后,用abbyy将目录的页码提取出来,然后在word里修改好,再贴进excel里,页码贴C列,再看一下,书的页码对应的pdf页数,在B列用公式加上。这就是pdf的页数。
( f3 D. ]: |7 x[attach]356366[/attach]3 F' h6 @. \: [1 m' Z
弄完后再 把他们复制到word里
( p* k+ t$ M$ C: G[attach]356367[/attach]
8 {2 w; H1 X1 Q- s现在,我们要按那个格式把他们分出层次来。我们用查找替换。查找替换有个高级,下面有格式、特殊格式。我们查找里选择特殊格式的“任意数字”,替换为:“制表符+查找内容”。这样,全部替换,所以数字都会右移一格。但是这样不行,因为我们要移的是1膜片弹簧 2膜片弹簧这些,而页码是不移的。所以,我们要把他们区分开来。我们注意到,这里页码只有3位数和4位数,所以我们查找“^#^#^#^#”,替换为:"^&"格式选绿色。这样就把4个连着的数字变成绿色,比如1234,他就变绿,而123不会变。然后再查找“^#^#^#”,同样替换为绿色。这个顺序不能反。因为你要先换3位数,1234他就会把123变绿,而4不变。你再替换4位数,1234的4就不会变绿。9 i* H! w1 K6 X. w4 F5 a: s1 G+ T; C
[attach]356368[/attach]
' o( u; }+ F* J0 D这样换了之后,还不行为什么呢。
) Z$ s: `# m$ J3 O, C. w" W标题有这么几种结构
& ]5 q8 ~$ Z/ g% |1
& t5 {. b+ d% P$ r0 ^, S1.1
2 \9 w( x$ |  O4 z4 P1.2.1
0 m- A# D, U$ q' `, v, c% B( r如果直接替换^#,1会变成“   1”,但1.1会变成“  1.  1”这样就不行了。所以我们对这些也要区分开。
6 v: S; s; K3 [% B- V查找“^#.^#^#.^#^#”,替换为深红(颜色随便选),再依次替换“^#.^#^#.^#”,“^#.^#.^#^#”"^#.^#.^#"。这里顺序也要注意。比如2.5.13,你先按"^#.^#.^#"替换,3就不会被替换,那么后面移的时候,1和3就会分开了。之前我的失败步骤就不赘述了。然后替换3.2这样的。最后替换3这样的。这个顺序也不能反。你要先替换3.2这样的,那格式就是“^#.^#”,这样就会把2.5.13里的2.5给替换了,后面就无法替换13了。因此,我们用这个办法把几种层次的给区分开了。
6 f# F8 \) M5 J1 p) Z9 H# f0 n* m# \! c9 v$ V( _% p
[attach]356369[/attach]
4 c# P, C3 \' @1 u( I- ^然后,我们查找“^#.^#^#.^#^#”,深红,替换为:“^&”,这里顺序和前面那个一样,先两位后一位。至于层次的顺序,没关系,因为有颜色区分。这样,我们就把层次给分开了。然后,检查。结果发现,标题里面有数字。那个数字也会被替换掉。这个只能手动改颜色,但这个并不多。手动改也快的。最后替换完就是这样的。+ E+ ~# ?* N! J, y% k: E. P* Z+ b/ V$ H
[attach]356371[/attach]
1 ]& {+ n% Q0 R. Q4 m1 d1 Z全搞完后。复制到那个txt里,然后用freepic2弄进去。! q! ?& O5 e  Q" Y0 b# ^
[attach]356373[/attach]
) G1 m5 G: J9 @( i0 s弄进pdf后,就是这样的。随机抽查几个,完全正确。
* j3 x: D4 x4 J, N- q[attach]356372[/attach]( H1 m& A4 i7 m  C0 B
这样,我们就对一个有着18页目录的pdf文档完成了目录的自动编写。虽然这样也很耗时间,但是相比纯手工,效率提高了很多倍。主要时间是用在文字的校对上。1 X1 D! H. R! o. [0 l, O/ o
" k5 _7 R( P1 t' |- {1 @. t

作者: 第15军军长    时间: 2015-6-13 14:09
seekfor 发表于 2015-6-13 13:05 6 _2 T$ F4 X  X+ o3 v3 r
ABBYY里面可以直接校对修改文字;
1 d' m) \% Q$ E( H/ K你这个只是把目录文字提取出来了,没有简历链接吧?

1 \6 f* A% d2 l$ f% B( y5 F! N我没写完,保存草稿他就给发出来了。现在已经写完了
8 B) L- H1 Q) s7 M. x) m
作者: 843694568    时间: 2015-6-13 14:41
第15军军长,才是个上校?而且,不务正业,乱发帖,泄漏军事机密!!!
作者: 第15军军长    时间: 2015-6-13 17:41
我把目录的txt文件发上来。手册太大,不发了
/ `, L, Q1 f$ W: F8 Z[attach]356396[/attach]  y/ p5 F5 m2 ~" f; _+ B





欢迎光临 机械必威体育网址 (//www.szfco.com/) Powered by Discuz! X3.4