PDFファイルからテキスト抽出
- 高橋玲子@東京武蔵野市 7.19.2000
PDFファイル(英文)を読みたいのですが、テキスト化するには、どうすればよいでしょう?
- 坂本@東京都練馬区 7.20.2000
crobat readerを持っているのならhttp://access.adobe.com/からaccess plugin
を入れると英文ならacrobatそのものを使って読む事ができます。
- 高橋玲子@東京武蔵野市 7.20.2000
サイト、見てみました。そうしたら、なんと、PDFファイルを添付して送ると、テキ
スト形式かhtml形式に自動で変換して送り返してくれるサービスがありました。
- 柳町@ソフトインストール会社VICS 7.21.2000
カット&ペーストではどうでしょう?
- 高橋玲子@東京武蔵野市 7.21.2000
カット&ペーストではうまくいきませんでした.98Readerがぷっつり黙ってしまいます。
- 田中哲夫 7.23.2000
98Readerは読ませた文字によってフリーズする事があります。PDFではよくそのよう
な事を経験しますね!!
- 高橋玲子@東京武蔵野市 7.24.2000
成功です! やはり、98Readerの問題だったみたいですね..
Subject: [jarvi:14278] PDFファイルのテキスト化
Date: Wed, 19 Jul 2000 19:36:04 +0900
From: Reiko TAKAHASHI (高橋玲子)
東京武蔵野市の高橋です。grとjarviにポストしています。
ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、
どうすればよいでしょう?
以前、どこかでこの話題を見かけた気がするのですが、該当のメールが見つか
りません。
完全に以前の繰り返しになってしまうようでしたら、該当メールの番号を教え
ていただいても、ものすごく助かります。
Acrobat Readerというソフトは持っています。OCRソフトも必要でしょうか……
?
英文ファイルと日本語ファイルとでは、テキスト化の方法が違うとうかがった
気がするのですが、ひとまず英文だけ読めればOKです。でも、もしよろしけれ
ば、日本語文の読み方も教えていただけたらうれしいです。
ページの最初に戻る
Subject: [jarvi:14283] Re: [gr] PDF ファイルのテキスト化
Date: Thu, 20 Jul 2000 01:17:34 +0900
From: Mitsugu Sakamoto
東京都練馬区の坂本です。
Reply Reiko TAKAHASHI (高橋玲子)'s message:
> ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、
> どうすればよいでしょう?
> 以前、どこかでこの話題を見かけた気がするのですが、該当のメールが見つか
> りません。
acrobat readerを持っているのなら
http://access.adobe.com/
からaccess pluginを入れると英文ならacrobatそのものを使って読む事ができま
す。
ただし、きれいに95/98readerで読むかどうかは不明ですけど。きっとかなり苦しいです。
これでhtmlやテキストにも変換できると思います。
ほかにもコピー&ペーストとかで読める場合もありますが、セキュリティーのめんで読
めなくされてるのも少なくありません。
ページの最初に戻る
Subject: [jarvi:14287] Re: PDF英文ファイルのテキスト変換サービス
Date: Thu, 20 Jul 2000 09:25:34 +0900
From: Reiko TAKAHASHI (高橋玲子)
東京都武蔵野市の高橋です。
坂本さん、ありがとうございます!
Reply Mitsugu Sakamoto 's message:
} acrobat readerを持っているのなら
} http://access.adobe.com/
} からaccess pluginを入れると英文ならacrobatそのものを使って読む事ができます。
このサイト、見てみました。
そうしたら、なんと、PDFファイルを添付して送ると、テキスト形式かhtml形式
に自動で変換して送り返してくれるサービスがありました。
読みたいPDFファイルがWeb上にある場合は、そのURLを送るだけでもよいようです。
結果をテキスト形式で受け取りたい場合、
pdf2txt@adobe.com
あるいは、
pdf2txt@sun.trace.wisc.edu
に、目的のPDFファイルのURLか、ファイルそのものをメールします。
結果をhtml形式で受け取りたい場合には、
pdf2html@adobe.com
あるいは
pdf2html@sun.trace.wisc.edu
宛に送るとよいようです。
私は、メール本文にはなにも書かずに、読みたいPDFファイルを添付して、タイト
ルも付けずにpdf2txt@adobe.comにメールしてみたのですが、ほんとうに、あっと
言う間にきれいなプレインテキストになって返信されてきました。
英文なら、この方法がいちばん手っ取り早そうです。
Acrobat Access plug-inもダウンロードしてみました。近いうちに、こちらも
ゆっくり試してみます。
それから、さまざまな形式のファイルからテキストを取り出すことのできる、
テキストエクスポートというツールを個人メールで教えていただきました。
株式会社アンテナハウス
http://www.antenna.co.jp/
から、12800円で購入できるのだそうです。
このツールだと、日本語ファイルも扱えるので、とても便利そうです!!
貴重な情報をありがとうございました!
ページの最初に戻る
Subject: [jarvi:14297] Re: PDFファイルのテキスト化
Date: Fri, 21 Jul 2000 13:44:20 +0900
From: ソフトインストール会社VICS
> 東京武蔵野市の高橋です。grとjarviにポストしています。
こんばんは!柳町です。
>
> ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、
> どうすればよいでしょう?
かっと&ペーストではどうでしょう。まず文章を開き、CTRL+A、CTRL+
Cの順に押します。
続いてメモ帳やワードパッドを開き、CTRL+Vを押しましょう。
これで、張り付いたと思います。
これでもだめならメールください。
ページの最初に戻る
Subject: [jarvi:14298] Re: PDFファイルのテキスト化
Date: Fri, 21 Jul 2000 19:57:19 +0900
From: Reiko TAKAHASHI (高橋玲子)
東京都武蔵野市の高橋です。
柳町さん、ありがとうございます!
} かっと&ペーストではどうでしょう。まず文章を開き、CTRL+A、CTRL+Cの順に押します。
} 続いてメモ帳やワードパッドを開き、CTRL+Vを押しましょう。
} これで、張り付いたと思います。
} これでもだめならメールください。
やってみました。
ところが、なにかがへんみたいで、うまく行きません。CTRL+A、CTRL+
Cとやったところで、98Readerがぷっつり黙ってしまいます。
読もうとしているPDFファイルは、全部で13ページありました。で、例のEmail
サービスでの変換結果によると、まず文章の最初に、ページ番号の'1'が書かれて
いるみたいなんです。
CTRL+A、CTRL+Cとすると、98Readerが「1」とだけ発声して沈黙
してしまいます。以後、どこをどう操作しても98Readerは復活しません。Window
sの動きも、思いっきり遅くなっているみたいなんです(でも、これは気のせいか
もしれません……)。
謎ですよね……なにが起こっているんでしょう?
なお、CTRL+Aした際に、単一ページを取り込むか、文書全体を取り込む
かの選択ができることを、個人メールで教えていただきました。それで、両方試
してみたのですが、1ページだけの取り込みでも、結果は一緒でした。
なにか原因に心当たりがあるようでしたら、ぜひ教えてください。
ページの最初に戻る
Subject: [jarvi:14325] Re: PDFファイルのテキスト化
Date: Sun, 23 Jul 2000 13:50:52 +0900 (JST)
From: tetuo tanaka
田中哲夫でス。
横から失礼いたします。
Reiko TAKAHASHI (高橋玲子) Wrote:
> ところが、なにかがへんみたいで、うまく行きません。CTRL+A、CTR
> L+Cとやったところで、98Readerがぷっつり黙ってしまいます。
98Readerは読ませた文字によってフリーズする事があります。
PDFではよくそのような事を経験しますね!!
98Readerがクリップボード読みになっていたらそれを外してからぽう1度やってみ
てはどうでしょうか?
メモ帳に貼り付けたら上下カーソルで読まずに左右カーソルで1文字ずつ読んで見
てください。
siftjisなんとかかんとか言うのがあれば、だいたいそれが原因だろうと思います。
メモ帳に貼り付けられない様でしたらセキュリティーのかかっているPDFファイルでしょうね。
ページの最初に戻る
Subject: [jarvi:14332] Re: PDFファイルのテキスト化
Date: Mon, 24 Jul 2000 00:50:29 +0900
From: Reiko TAKAHASHI (高橋玲子)
東京武蔵野市の高橋です。
田中哲夫さん、ありがとうございます!
Reply tetuo tanaka 's message:
} 98Readerは読ませた文字によってフリーズする事があります。
} PDFではよくそのような事を経験しますね!!
} 98Readerがクリップボード読みになっていたらそれを外してからぽう1度やってみてはどうでしょうか?
やってみました。成功です! やはり、98Readerの問題だったみたいですね……。
それで、左右カーソルで少しだけ辿ってみたのですが、怪しげなコードは見あ
たらないんです。不思議……
ただ、メール・サービスでテキスト化されてきたファイルの中には、たしかに、
いくつか得体の知れないコントロール・コード(?)が混ざっていました。そのあた
りがいたずらしてたのかもしれないですよね。
ありがとうございました!
ページの最初に戻る
JARVI/ML Technical Digest Indexへ