PDFファイルからテキスト抽出


  1. 高橋玲子@東京武蔵野市 7.19.2000 PDFファイル(英文)を読みたいのですが、テキスト化するには、どうすればよいでしょう?
  2. 坂本@東京都練馬区 7.20.2000 crobat readerを持っているのならhttp://access.adobe.com/からaccess plugin を入れると英文ならacrobatそのものを使って読む事ができます。
  3. 高橋玲子@東京武蔵野市 7.20.2000 サイト、見てみました。そうしたら、なんと、PDFファイルを添付して送ると、テキ スト形式かhtml形式に自動で変換して送り返してくれるサービスがありました。
  4. 柳町@ソフトインストール会社VICS 7.21.2000 カット&ペーストではどうでしょう?
  5. 高橋玲子@東京武蔵野市 7.21.2000 カット&ペーストではうまくいきませんでした.98Readerがぷっつり黙ってしまいます。
  6. 田中哲夫 7.23.2000 98Readerは読ませた文字によってフリーズする事があります。PDFではよくそのよう な事を経験しますね!!
  7. 高橋玲子@東京武蔵野市 7.24.2000 成功です! やはり、98Readerの問題だったみたいですね..

Subject: [jarvi:14278] PDFファイルのテキスト化 Date: Wed, 19 Jul 2000 19:36:04 +0900 From: Reiko TAKAHASHI (高橋玲子)  東京武蔵野市の高橋です。grとjarviにポストしています。  ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、 どうすればよいでしょう?  以前、どこかでこの話題を見かけた気がするのですが、該当のメールが見つか りません。  完全に以前の繰り返しになってしまうようでしたら、該当メールの番号を教え ていただいても、ものすごく助かります。  Acrobat Readerというソフトは持っています。OCRソフトも必要でしょうか…… ?  英文ファイルと日本語ファイルとでは、テキスト化の方法が違うとうかがった 気がするのですが、ひとまず英文だけ読めればOKです。でも、もしよろしけれ ば、日本語文の読み方も教えていただけたらうれしいです。 ページの最初に戻る
Subject: [jarvi:14283] Re: [gr] PDF ファイルのテキスト化 Date: Thu, 20 Jul 2000 01:17:34 +0900 From: Mitsugu Sakamoto 東京都練馬区の坂本です。 Reply Reiko TAKAHASHI (高橋玲子)'s message: >  ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、 > どうすればよいでしょう? >  以前、どこかでこの話題を見かけた気がするのですが、該当のメールが見つか > りません。 acrobat readerを持っているのなら http://access.adobe.com/ からaccess pluginを入れると英文ならacrobatそのものを使って読む事ができま す。 ただし、きれいに95/98readerで読むかどうかは不明ですけど。きっとかなり苦しいです。 これでhtmlやテキストにも変換できると思います。 ほかにもコピー&ペーストとかで読める場合もありますが、セキュリティーのめんで読 めなくされてるのも少なくありません。 ページの最初に戻る
Subject: [jarvi:14287] Re: PDF英文ファイルのテキスト変換サービス Date: Thu, 20 Jul 2000 09:25:34 +0900 From: Reiko TAKAHASHI (高橋玲子)  東京都武蔵野市の高橋です。  坂本さん、ありがとうございます! Reply Mitsugu Sakamoto 's message: } acrobat readerを持っているのなら } http://access.adobe.com/ } からaccess pluginを入れると英文ならacrobatそのものを使って読む事ができます。  このサイト、見てみました。  そうしたら、なんと、PDFファイルを添付して送ると、テキスト形式かhtml形式 に自動で変換して送り返してくれるサービスがありました。  読みたいPDFファイルがWeb上にある場合は、そのURLを送るだけでもよいようです。  結果をテキスト形式で受け取りたい場合、 pdf2txt@adobe.com あるいは、 pdf2txt@sun.trace.wisc.edu に、目的のPDFファイルのURLか、ファイルそのものをメールします。  結果をhtml形式で受け取りたい場合には、 pdf2html@adobe.com あるいは pdf2html@sun.trace.wisc.edu 宛に送るとよいようです。  私は、メール本文にはなにも書かずに、読みたいPDFファイルを添付して、タイト ルも付けずにpdf2txt@adobe.comにメールしてみたのですが、ほんとうに、あっと 言う間にきれいなプレインテキストになって返信されてきました。  英文なら、この方法がいちばん手っ取り早そうです。  Acrobat Access plug-inもダウンロードしてみました。近いうちに、こちらも ゆっくり試してみます。  それから、さまざまな形式のファイルからテキストを取り出すことのできる、 テキストエクスポートというツールを個人メールで教えていただきました。 株式会社アンテナハウス http://www.antenna.co.jp/ から、12800円で購入できるのだそうです。  このツールだと、日本語ファイルも扱えるので、とても便利そうです!!  貴重な情報をありがとうございました! ページの最初に戻る
Subject: [jarvi:14297] Re: PDFファイルのテキスト化 Date: Fri, 21 Jul 2000 13:44:20 +0900 From: ソフトインストール会社VICS >  東京武蔵野市の高橋です。grとjarviにポストしています。  こんばんは!柳町です。 > >  ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、 > どうすればよいでしょう?  かっと&ペーストではどうでしょう。まず文章を開き、CTRL+A、CTRL+ Cの順に押します。   続いてメモ帳やワードパッドを開き、CTRL+Vを押しましょう。  これで、張り付いたと思います。  これでもだめならメールください。 ページの最初に戻る
Subject: [jarvi:14298] Re: PDFファイルのテキスト化 Date: Fri, 21 Jul 2000 19:57:19 +0900 From: Reiko TAKAHASHI (高橋玲子)  東京都武蔵野市の高橋です。  柳町さん、ありがとうございます! }  かっと&ペーストではどうでしょう。まず文章を開き、CTRL+A、CTRL+Cの順に押します。 }   続いてメモ帳やワードパッドを開き、CTRL+Vを押しましょう。 }  これで、張り付いたと思います。 }  これでもだめならメールください。  やってみました。  ところが、なにかがへんみたいで、うまく行きません。CTRL+A、CTRL+ Cとやったところで、98Readerがぷっつり黙ってしまいます。  読もうとしているPDFファイルは、全部で13ページありました。で、例のEmail サービスでの変換結果によると、まず文章の最初に、ページ番号の'1'が書かれて いるみたいなんです。  CTRL+A、CTRL+Cとすると、98Readerが「1」とだけ発声して沈黙 してしまいます。以後、どこをどう操作しても98Readerは復活しません。Window sの動きも、思いっきり遅くなっているみたいなんです(でも、これは気のせいか もしれません……)。  謎ですよね……なにが起こっているんでしょう?  なお、CTRL+Aした際に、単一ページを取り込むか、文書全体を取り込む かの選択ができることを、個人メールで教えていただきました。それで、両方試 してみたのですが、1ページだけの取り込みでも、結果は一緒でした。  なにか原因に心当たりがあるようでしたら、ぜひ教えてください。 ページの最初に戻る
Subject: [jarvi:14325] Re: PDFファイルのテキスト化 Date: Sun, 23 Jul 2000 13:50:52 +0900 (JST) From: tetuo tanaka 田中哲夫でス。 横から失礼いたします。 Reiko TAKAHASHI (高橋玲子) Wrote: >  ところが、なにかがへんみたいで、うまく行きません。CTRL+A、CTR > L+Cとやったところで、98Readerがぷっつり黙ってしまいます。  98Readerは読ませた文字によってフリーズする事があります。 PDFではよくそのような事を経験しますね!! 98Readerがクリップボード読みになっていたらそれを外してからぽう1度やってみ てはどうでしょうか?  メモ帳に貼り付けたら上下カーソルで読まずに左右カーソルで1文字ずつ読んで見 てください。 siftjisなんとかかんとか言うのがあれば、だいたいそれが原因だろうと思います。  メモ帳に貼り付けられない様でしたらセキュリティーのかかっているPDFファイルでしょうね。 ページの最初に戻る
Subject: [jarvi:14332] Re: PDFファイルのテキスト化 Date: Mon, 24 Jul 2000 00:50:29 +0900 From: Reiko TAKAHASHI (高橋玲子)  東京武蔵野市の高橋です。  田中哲夫さん、ありがとうございます! Reply tetuo tanaka 's message: }  98Readerは読ませた文字によってフリーズする事があります。 } PDFではよくそのような事を経験しますね!! } 98Readerがクリップボード読みになっていたらそれを外してからぽう1度やってみてはどうでしょうか?  やってみました。成功です! やはり、98Readerの問題だったみたいですね……。  それで、左右カーソルで少しだけ辿ってみたのですが、怪しげなコードは見あ たらないんです。不思議……  ただ、メール・サービスでテキスト化されてきたファイルの中には、たしかに、 いくつか得体の知れないコントロール・コード(?)が混ざっていました。そのあた りがいたずらしてたのかもしれないですよね。  ありがとうございました! ページの最初に戻る
JARVI/ML Technical Digest Indexへ