ファイルサイズが圧倒的に小さくなる!ビジネス書を自炊する際のScanSnapのオススメ設定 by @tsubasamatio

こんにちは。翼 真知男 と申します。 エンジニアが本業の41歳の2人の娘の父親で「翼をひろげよう」というブログをやらせてもらっています。

自炊って結構奥が深くて、最終的なパラメータ出しには試行錯誤が必要なんですよね。特に Retinaディスプレイを搭載する新しいiPadで閲覧する場合の設定については、私も結構こだわりをもってあれこれと検証しました。

そんなわけで、私の検討結果がみなさんのお役に立てれば!との思いから、このたび寄稿させていただきました。

自炊の時の悩みとは?

自炊を始めたときに悩むのが、PDFにするときの設定だと思います。 スキャナにScanSnapを用いて、最終的にPDFにすることを考えると、次のような疑問が出てくることと思います。

  • 白黒/グレー/カラーのどのモードでスキャンすべきか?
  • 「文字をくっきりします」は有効にすべきか否か?
  • 「文字列の傾きを自動的に補正します」は有効にすべきか否か?
  • OCR は ScanSnap Manager で行うべきか、Acrobat で行うべきか?
  • PDF のファイルサイズを小さくするにはどうすべきか?
  • iPad でサクサク閲覧するための設定はどうすべきか?

これらを全部組合わせて検証すると膨大な組み合わせの数になってしまうので、まずは決められる部分をサクッと決めてしまいます。

そもそも自炊する目的は?

そもそも自炊はなんのためにするのでしょうか? この目的がはっきりしていないと軸がぶれてしまいます。

今回は「読めない本を持ち歩いて読むために自炊する」ということを前提とします。主たる対象本はいわゆるビジネス本です。

スキャナの設定

ここでは、ScanSnap Manager の設定を見てみましょう。

アプリ選択

特にアプリケーションと連動させないので、「起動しません(ファイル保存のみ)」を選択します。

Scan snap setting 1

保存先

保存先については、後に作業しやすいように、自炊データだけを別のフォルダにまとめておいたほうが良いでしょう。フォルダ名は自分がわかりやすいものにしておけばOKです。

Scan snap setting 2

読み取りモードの設定

スキャン対象がビジネス本で、情報の入力が主目的であることから、ここは思い切って白黒の二値モードでのスキャン設定とします。これによって後のハンドリングがずっと楽になるからです。

また、iPadのPDFビューアの動作も軽くなるので、白黒二値で読み取ることを強くお勧めします。

グレーやハッチングのイラストでも、600DPI の超高解像度パワーでかなり「読める」スキャン結果となります。

画質は迷わずスーパーファインを選択。これがScanSnapの真骨頂で、超高解像度&高速スキャンのポテンシャルを余すとこなく発揮できるからです。

読み取り面の選択は「両面読み取り」

また、「継続読み取りを有効にします」のチェックボタンを是非とも入れておきましょう。ScanSnap S1500 の場合、紙詰まりを起こさないためにも一度に大量のページをスキャンしない方が無難で、そういう場合には継続読み取りがとっても便利です。

Scan snap setting 3

読み取りモードオプションの設定

次に、読み取りモードオプションの設定を行います。以下がワタクシが強くお勧めする設定内容です。

Scan snap setting 4

  • 「文字をくっきりします」は選ばないほうが、最終的に読みやすくなる
  • 白紙ページを自動的に削除してしまうと、ページ送りのバランスが崩れる
  • 文字列の傾きを自動的に補正したほうが、読むときにストレスが少ない
  • 原稿の向きを自動的に補正させると、たまに間違う

ファイル形式

「検索可能なPDF にします」オプションはチェックを入れると、OCRして起こしたテキスト情報を隠れ文字として埋め込んでくれるため、検索可能なPDFファイルにしてくれます。

しかし、このオプションにはチェックを入れません。これには3つの理由があります。

  • ScanSnap Manager でOCRをかけると、OCR 処理が終わるまで次のスキャンが行えず、作業テンポが悪い。
  • OCR の精度が今ひとつで、ファイルサイズも大きい。その結果、iPad で閲覧するときに「刺さる」
  • Acrobat でOCRをかけて、後処理を行ったほうがファイルサイズも小さくなり、iPad で閲覧するときに「刺さらない」

ここで「刺さる」というのは、PDF ビューアーでページ送りをしても処理が追いつかないことを指します。処理が重くて動作がスムーズでないときに「刺さる」という表現をするのは全国共通と思っているのですが、ひょっとして私の周りだけでしょうか?(笑)

Scan snap setting 5

原稿、ファイルサイズ

原稿サイズについては、自動選択するようにしておけば良いでしょう。ファイルサイズについては、PDFファイルで保存するため、特に何も設定しません(設定できません)。

Scan snap setting 6

スキャンしたPDFファイルの後処理

さて、スキャンしたオリジナルPDF ファイルにはテキスト情報が入っていませんし、ファイルサイズも大きいので、何らかの処置が必要でしょう。そこで、Acrobat を用いてOCR とファイルサイズ縮小に関する後処理を行います。

では、具体的な手順について、次の本を自炊する場合を例にして説明しましょう。

 
以下では、Windows版のAcrobatX(30日間のお試し版がAdobeのWebサイトからダウンロードできます)を使った例を示しますが、基本的にはAcrobat9でも同じです。

OCR を実施するには、オプションバーのツールをクリックし、現れたタブからテキスト認識を選択します。

Acrobat 1

テキスト認識の際のオプションとして、単に隠しテキストを埋め込むだけ(検索可能な画像、圧縮あり)とするか、元のフォントに似た新しいType3フォントを合成して低解像度のコピーを使用する(ClearScan)かを選ぶことができます。

Acrobat 2

また、最終的にPDFファイルを保存する場合に、単純に保存するか、サイズが縮小されたPDFとするかで結果が変わります。

Acrobat 3

検証にあたっては、ScanSnap の読み取りモードオプションの設定にあった「くっきり」オプションの有無も考えると、

  • くっきり有り or くっきり無し
  • 画像 or ClearScan
  • 標準サイズ or 縮小サイズ

の順列となるので8通りのOCR実施手順が考えられます。さらに、くっきり有りと無しの2つのオリジナルがあるため、全部で10通りのPDFファイルが作れます。ということで、これらを実際に作ってみました。

処理結果は以下のとおりですが、オリジナルは34MB程度あるのが、Acrobat でOCR処理して保存すると、劇的にファイルサイズが小さくなっていることがわかります。

Files

閲覧デバイス上でのクオリティー比較

先ほどの10個のPDFファイルのうち、くっきり無しバージョンを iPad(2012)で表示し、スクリーンキャプチャしたものを更に等倍ピクセルで抜き出し、それぞれを比較しました。なお、iPad 上でのスクリーンキャプチャを取る際に、自炊用PDFビューアーとしてお勧めする Book+ を用いました。

Book+
価格: ¥450
バージョン: 1.7.2

以下が結果です。ファイルサイズの降順でソートしました。

画像クリックで大きい画像が開きます
くっきり無し比較_大

等倍ピクセルで見ないと判別しにくいのですが、「画像」でOCRをかけたものは「もや」がかかったような結果となっているのに対し、ClearScan は非常にクリアーですっきりしています。ただし、文字が少し太くなり、角ゴシック体が丸ゴシック体の用になってしまったり、たまに文字間隔がおかしくなったりと、若干のデメリットがあったりシます。

しかし、iPad で閲覧するときの快適さではClearScanに軍配が上がると思います。というのも、「画像」OCR処理を施したPDFファイルをiPadで閲覧した場合に、ページ送りの際にどうしても「刺さる」傾向にあります。ところが、ClearScan にて処理したPDFファイルの場合は、超高速でページ送りしたとしてもサクサクと動作して、非常に小気味良く閲覧することができます。速読風に読む場合には絶対に押させておきたいポイントです。

また、PDFファイルの保存時の設定として、「標準」がいいのか、それとも「縮小」が良いかについては、人によって好みがあるかもしれません。確かに「縮小」ではファイルサイズが「標準」に比べて半分になっていますが、この程度の差であればクオリティーを重視した方が納得感があるでしょう。

「くっきり」は有り?無し?

冒頭にあった読み取りモードオプションの設定の「くっきり」オプションですが、有りのほうがいいのでしょうか?それとも無しの方がよいのでしょうか?

結論としては、不思議な事に、「くっきりなし」の方がよりくっきりします。「くっきりあり」の場合は、なんとなくぼやけて見えるのが分かるでしょうか?

画像クリックで大きい画像が開きます
くっきり間の比較_大

設定まとめ

  • ビジネス本ならスーパーファイン白黒を選択
  • 文字取りモードオプションでは「くっきり」は選択しない
  • OCR は Acrobat の ClearScan で実施
  • PDFを保存するときは「標準」か「縮小」はお好みで

最後に、重要なことを一つ。オリジナルのファイルは絶対に保存しておくということです。

ClearScanは極稀にバグるときがあるので、オリジナルファイルの保管は必須だと言えるでしょう。

長くなりましたが、楽しい自炊ライフの参考になれば幸いです。

goryugoより

今回寄稿頂いた@tsubasamatioさんのブログはこちらです

翼をひろげよう

記事からも読み取れるように、色んな検証とかがものすごい深掘りされててすごいです。

また、ごりゅご.comでは寄稿記事を随時募集しております。

ご興味のある方はTwitter:@goryugo もしくは infoあっとgoryugo.comまでご連絡下さい。

掲載保証が出来るわけではありませんが、だいたいなんでもウェルカムです。

参考:自炊関連の記事一覧

この記事を書いた人

五藤隆介(goryugo)

「仕事効率化」「ライフログ」「家族Hack」「デジタル情報共有」みたいなことを書いてます。

面白い本について語るPodcast「ブックカタリスト」も始めました

iPad Workers

月額15ドル/年額120ドルで月1回のiPadオンラインセミナー
受講&iPad活用のヒントになる情報をお届けします。iPad Meetup(Zoom座談会)も開催します。
ライスワークやライフワークにiPadを活用したい人におすすめのコミュニティです。