- 2004-05-07 (金) 2:55
- ソフトウェア
PDFやWORDからテキストを抽出する xdoc2txt [ぬる℃家]
様々なバイナリファイルからテキストを抽出することができるソフト.対応しているバイナリファイルは以下の通り.
.rtf リッチテキスト
.doc Microsoft WORD ver5.0/95/97/2000/XP/2003
.xls Microsoft Excel ver5.0/95/97/2000/XP/2003
.ppt Microsoft PowerPoint 97/2000/XP/2003
.jaw/jtw 一太郎 ver5
.jbw/juw 一太郎 ver6
.jfw/jvw 一太郎 ver7
.jtd/jtt 一太郎 ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win
.bun 新松/松5/松6
.wj2/wj3/wk3/wk4/123 Lotus 123
.wri Windows3.1 Write
.pdf Adobe PDF
.mht Webアーカイブ
.html HTML
代表的なものはほとんど全てフォローしているので心強い.
使い方も非常に簡単で,sample.docというWORDファイルからテキストを抽出して,sample.txtに書き込むときにはコマンドプロンプトから
xdoc2txt sample.doc > sample.txt
とするだけで良い. コマンドプロンプトを使い慣れない場合にはショートカットを利用してショートカットのプロパティから[リンク先(T)]の末尾に, -f を追加すれば良い.
さらにこのソフトの強力な機能はこれだけではなく,パスワードなしで暗号化されたPDFファイルからテキスト抽出を行うことができる. 具体的に云うと,パスワードなしで開くことが可能で,コピーや印刷を制限されたPDFファイルからテキストだけ抽出することができるわけだ. これは非常にありがたい. ちょっと著作権的に問題も出てきそうなので,この辺はしっかりと守っていただくとして,使い方は
■コマンドプロンプトの場合:
オプションで -n を指定.
xdoc2txt -n sample.pdf > sample.txt
■ショートカットを使う場合:
プロパティから[リンク先(T)]の末尾に, -n を追加
# 結果として,-f -nとなります.
またこの機能を使うためには別配布のcryptlib.dllが必要になる(同サイトで配布).
これでコピーできないPDFからでも,コピペして間違いなく引用することができる. 著作権に気を付けてガンガン使ってくださいませ.
- Newer: 修復速度2倍
- Older: 脂肪の燃えかすが突然死の原因
Comments:0
Trackbacks (Close):5
- trackback from re-in-car-na-tion 04-05-08 (土) 0:26
-
保護されたPDFからテキストを抜き出す
Orbium: 保護されたPDFからテキストを抜き出す クリップボードへのコピーが禁止されているPDFファイルのテキスト部分を抽出してコピー出来るようにするソフト。 Adobe Reader SpeedUpと併せてあの使いづらいPDF環境の改善に役立てよう……
- trackback from わたしが知らないスゴ本は、きっとあなたが読んでいる 04-05-08 (土) 13:51
-
PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く
いろいろなバイナリファイルからテキストデータを抜けるツールxdoc2txtで遊ん
- trackback from まるで日記のように 04-05-09 (日) 1:32
-
保護されたPDFからテキストを抜き出す
友人にレポートの代筆を頼まれたことがある。 「書く」という行為は嫌いではないので快く引き受けることにした。 しかしぼくは善人ではないので、書き上げたレポートを「印刷禁止」「テキスト抽出禁止」のPDFファイルにして、フロッピーに入れて依頼主に渡した。 提出締め…
- trackback from PukiWiki/TrackBack 0.1 04-05-11 (火) 1:30
-
News/2004-05-10
【音楽】YAMAHA DTXPRESS lll SPECIAL 新宿店オリジナルセット — ここらへんが妥当なとこかなあ。 【技術】Winny作者の47氏、逮捕(スラッシュドット) — だからまとめページはWikiベースでボランティア複数でやれっつーのという毎度の不満はさておき、ちょいと昨日まで古…
- trackback from ひとぅブログ 05-12-19 (月) 19:32
-
PDFファイルからテキストを抽出する方法
PDFファイルで配布されている文章で、テキストをコピーしたいことがたまにあります。
Acrobat(Readerではなく)を持っている場合は、標準の機能で、H…



