読者です 読者をやめる 読者になる 読者になる

彼女からは、おいちゃんと呼ばれています

ウェブ技術や日々考えたことなどを綴っていきます

電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww

電子化 iPad

まずは下の表を見てください。

Perlベストプラクティス

Perlベストプラクティス

版 / ページ数 B5版 / 513ページ
スキャン 白黒 600dpi /(表紙のみ)カラー 300dpi
圧縮前のサイズ 89.2MB
圧縮後のサイズ 28.1MB

これは前回のエントリー「ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実」で調査対象にした本(PDF)を、Adobe Acrobat 9(Pro / Standard)を使って圧縮した結果です。*1

前回のエントリーでは、

ScanSnap でスキャンした後に Adobe AcrobatOCR テキスト認識して、
検索がウマwww

という結論に至りましたが、Adobe Acrobat では OCR テキスト認識の際にあわせて PDF のファイルサイズを小さくすることができます。

これがめちゃくちゃ役に立つ、むしろ使わな損ってレベル。特に電子化した本を iPad で見ようという方にとってはファイルサイズは死活問題だと思いますし。

ただ、おさえておかなければならないポイントがいくつかあるので、それを以下で説明しちゃいましょうっていうのが今回の内容です。


(2010年5月31日 追記)

PDF 圧縮の具体的なやり方については nanapi(ナナピ)にまとめました。よろしければこのエントリーのつづきとしてどうぞ。

(2010年7月9日 追記)

iPad でサクサク表示させるためには、Adobe Acrobat 9 の新機能「ClearScan」を使ってOCR テキスト認識するとよさそうです。詳細を次のエントリーにまとめてみましたので、あわせてどうぞ。

1. Acrobat は PDF 圧縮時に何をやっているのか?

まず、Acrobat が PDF 圧縮時に何をやっているのかといえば、いろいろやってます(笑)。Acrobat はかしこい子なので。

詳細は上記サイトに譲りますが、Acrobat を使う上で知っておいたほうが良いだろうと思われるのは「画像のダウンサンプリング」という用語。これは画像の画素数(ピクセル数)を減らす処理のことです。とーぜん画像は粗くなるので、やりすぎると見映えが悪くなるのですが。

Acrobat では、OCR テキスト認識の際にダウンサンプリングのレベル(どれだけピクセル数を減らすか)を選択することができます。


2. 画像のダウンサンプリングはどのくらいのレベルが最適?

じゃあ、どのくらいのレベルのダウンサンプリングが最適なのかというと、これも見本をみていただいたほうが早いかもしれません。

レベル 見本(倍率200%) ファイルサイズ
非圧縮 93.6MB
最低圧縮(600dpi) 28.1MB
低圧縮(300dpi) 16.9MB
中圧縮(150dpi) 10.1MB
高圧縮(72dpi) 5.9MB

前回のエントリーで推薦した ScanSnap S1500 の設定に基づき、画質「スーパーファイン(カラー300dpi / 白黒600dpi)」でスキャンして作成した PDF なので、ダウンサンプリングのレベルを 600dpi(カラーの場合は 300dpi)より下げると画質が粗くなるのは理論的に正しいのですが、肉眼でもわかるくらい劣化していますね...

一方、試しに 600dpi よりも解像度の大きな画像を 600dpi でダウンサンプルしてみましたが、画像の劣化については、肉眼ではほとんど見分けがつかないほどでした。*2

したがって、ダウンサンプリングのレベルは「最低圧縮(600dpi)」を選択するのが良いかと。

3. 実は、画像のダウンサンプリング以外の処理のほうがスゴい

そう、お気づきのとおり、解像度が 600dpi の PDF を 600dpi でダウンサンプルしても実質、ダウンサンプリングにはなりません。

にもかかわらず「最低圧縮(600dpi)」を選んでもファイルサイズが小さくなっているのは、テキスト認識と同時にダウンサンプリング以外の圧縮処理も行われているから。

実際のところ、画像のダウンサンプリングよりもそれ以外の処理のほうが効果が大きいらしく、

画像が多い本よりも、テキストが多くを占める本のほうが圧縮率が高い

という結果になりました。

書籍 版 / ページ数 / その他 テキスト認識前 テキスト認識後(非圧縮) テキスト認識後(600dpi圧縮)
Perlベストプラクティス B5版 / 513ページ / 表紙以外は全てテキスト 89.2MB 93.6MB 28.1MB
Photoshop & Illustrator イラストデザイン マスターピース B5版 / 258ページ / 画像をふんだんに 130.9MB 133.4MB 99.3MB
速効!図解 逆引き小事典 Excel VBA 2003&2002対応―Windows XP版 (速効!逆引き小事典) A5版 / 273ページ / 1ページに1画像くらい 106.9MB 109.8MB 78.2MB
iPhoneとツイッターで会社は儲かる (マイコミ新書) 新書 / 193ページ / 全てテキスト 22.4MB 23.8MB 8.9MB

また、画像のダウンサンプリングは、あまり強くやると画像の劣化が肉眼でもわかってしまったりしますが、Acrobat の画像ダウンサンプリング「以外」の方法で行う圧縮処理では劣化が目立たないというのも特長です。

4. 既に別のソフトウェアでテキスト認識していても問題なし

既に別のソフトウェア、例えば ScanSnap S1500 標準の「ScanSnap Manager」や「ScanSnap Organizer」でテキスト認識している場合でも、Acrobat でテキスト認識処理できます(テキストのレイヤーが上書きされる)。

また、PDF 圧縮だけを単独で行うこともできます。

5. 唯一の欠点は、処理に時間がかかること

けっこう裏でいろんなことやっているせいか、処理にはえらい時間がかかります。もちろん PC のスペックにも寄りますが、最新の MacBook 15インチ(Core i5)でも、冒頭の『Perl ベストプラクティス』だと30分、新書でも10分ほどかかりました。

ただ、複数のファイルをまとめて処理できるので、僕は寝ているときに処理させたりしています。

6. 新技術「ClearScan」はたまに暴走する

ところで、Acrobat 9 から「ClearScan」という技術が導入されて、これを使うと、PDF 上の文字を選択したときのガタつきが減ります。

非常によい技術なので本当に惜しいのですが、たまに補正しすぎて逆にナナメに傾け過ぎたりしてしまいます。

なので今回は採用を見送りましたが、今後に期待です。

一番大切なことは「原本」を保存しておくこと

さて、これまでいろいろと説明してきましたが、一番大切なことは何かと問われれば、それは

スキャンしただけの「原本」を保存しておく

ということ。

おそらくですが、OCR テキスト認識であれ、PDF の圧縮であれ、自分なりのスタイルを確立するためにはある程度の試行錯誤が必要になります。たとえ事前にこのエントリーに目を通していたとしても、です。

また、前回のエントリーでも触れたように、現バージョンの Acrobat ではアルファベットの認識精度はいまいちですが、そのうち精度も格段に上がるかもしれません。

とすると、「原本」に対して処理をやり直す、という機会が必ず訪れると思います。たしかに原本のファイルサイズはそれなりに大きいですが、これだけハードディスクが安くなっている今日ですから、原本を母艦に、圧縮したファイルを iPad へ、というのが通(つう)のやり方でしょう。

おわりに

これまで Adobe Acrobat というと単に「重い」という印象だけがあってあんまり良くは思っていなかったのですが、謝らないといけなくなりました。なんてことはない。それは僕が使いこなせていなかっただけのこと。

前回紹介した OCR テキスト認識にしろ、今回紹介した PDF 圧縮にしろ、
まさか Acrobat がこれほどスゴいとは知らず、まさに衝撃でした。

つい先ほど、同志から

A子(先日行った飲み会で対面に座っていた女子。スレンダー)は
実は、Fカップらしい(!)

というメールが届いたのですが、それに匹敵するくらいの衝撃(タイトルに鼻血が付いてしまったのはそのせいです)

Fはけしからんだろ、Fは。

*1:僕は Acrobat 9 Pro のほうを使っていますが、ScanSnap S1500(Windows モデル)に付属している Acrobat 9 Standard でも同様です。ただし、Mac モデルに付属しているのは Acrobat 8 Professional で、後述の「ClearScan」は使えません。

*2:白黒 1200dpi でスキャンして作成した PDF を 600dpi にダウンサンプルしてみました。