PDFファイルからテキスト抽出
- 高橋玲子@東京武蔵野市 7.19.2000 PDFファイル(英文)を読みたいのですが、テキスト化するには、どうすればよいでしょう?
- 坂本@東京都練馬区 7.20.2000 crobat readerを持っているのならhttp://access.adobe.com/からaccess plugin を入れると英文ならacrobatそのものを使って読む事ができます。
- 高橋玲子@東京武蔵野市 7.20.2000 サイト、見てみました。そうしたら、なんと、PDFファイルを添付して送ると、テキ スト形式かhtml形式に自動で変換して送り返してくれるサービスがありました。
- 柳町@ソフトインストール会社VICS 7.21.2000 カット&ペーストではどうでしょう?
- 高橋玲子@東京武蔵野市 7.21.2000 カット&ペーストではうまくいきませんでした.98Readerがぷっつり黙ってしまいます。
- 田中哲夫 7.23.2000 98Readerは読ませた文字によってフリーズする事があります。PDFではよくそのよう な事を経験しますね!!
- 高橋玲子@東京武蔵野市 7.24.2000 成功です! やはり、98Readerの問題だったみたいですね..
Subject: [jarvi:14278] PDFファイルのテキスト化 Date: Wed, 19 Jul 2000 19:36:04 +0900 From: Reiko TAKAHASHI(高橋玲子) 東京武蔵野市の高橋です。grとjarviにポストしています。 ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、 どうすればよいでしょう? 以前、どこかでこの話題を見かけた気がするのですが、該当のメールが見つか りません。 完全に以前の繰り返しになってしまうようでしたら、該当メールの番号を教え ていただいても、ものすごく助かります。 Acrobat Readerというソフトは持っています。OCRソフトも必要でしょうか…… ? 英文ファイルと日本語ファイルとでは、テキスト化の方法が違うとうかがった 気がするのですが、ひとまず英文だけ読めればOKです。でも、もしよろしけれ ば、日本語文の読み方も教えていただけたらうれしいです。 ページの最初に戻る
Subject: [jarvi:14283] Re: [gr] PDF ファイルのテキスト化 Date: Thu, 20 Jul 2000 01:17:34 +0900 From: Mitsugu Sakamoto東京都練馬区の坂本です。 Reply Reiko TAKAHASHI (高橋玲子)'s message: > ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、 > どうすればよいでしょう? > 以前、どこかでこの話題を見かけた気がするのですが、該当のメールが見つか > りません。 acrobat readerを持っているのなら http://access.adobe.com/ からaccess pluginを入れると英文ならacrobatそのものを使って読む事ができま す。 ただし、きれいに95/98readerで読むかどうかは不明ですけど。きっとかなり苦しいです。 これでhtmlやテキストにも変換できると思います。 ほかにもコピー&ペーストとかで読める場合もありますが、セキュリティーのめんで読 めなくされてるのも少なくありません。 ページの最初に戻る
Subject: [jarvi:14287] Re: PDF英文ファイルのテキスト変換サービス Date: Thu, 20 Jul 2000 09:25:34 +0900 From: Reiko TAKAHASHI(高橋玲子) 東京都武蔵野市の高橋です。 坂本さん、ありがとうございます! Reply Mitsugu Sakamoto 's message: } acrobat readerを持っているのなら } http://access.adobe.com/ } からaccess pluginを入れると英文ならacrobatそのものを使って読む事ができます。 このサイト、見てみました。 そうしたら、なんと、PDFファイルを添付して送ると、テキスト形式かhtml形式 に自動で変換して送り返してくれるサービスがありました。 読みたいPDFファイルがWeb上にある場合は、そのURLを送るだけでもよいようです。 結果をテキスト形式で受け取りたい場合、 pdf2txt@adobe.com あるいは、 pdf2txt@sun.trace.wisc.edu に、目的のPDFファイルのURLか、ファイルそのものをメールします。 結果をhtml形式で受け取りたい場合には、 pdf2html@adobe.com あるいは pdf2html@sun.trace.wisc.edu 宛に送るとよいようです。 私は、メール本文にはなにも書かずに、読みたいPDFファイルを添付して、タイト ルも付けずにpdf2txt@adobe.comにメールしてみたのですが、ほんとうに、あっと 言う間にきれいなプレインテキストになって返信されてきました。 英文なら、この方法がいちばん手っ取り早そうです。 Acrobat Access plug-inもダウンロードしてみました。近いうちに、こちらも ゆっくり試してみます。 それから、さまざまな形式のファイルからテキストを取り出すことのできる、 テキストエクスポートというツールを個人メールで教えていただきました。 株式会社アンテナハウス http://www.antenna.co.jp/ から、12800円で購入できるのだそうです。 このツールだと、日本語ファイルも扱えるので、とても便利そうです!! 貴重な情報をありがとうございました! ページの最初に戻る
Subject: [jarvi:14297] Re: PDFファイルのテキスト化 Date: Fri, 21 Jul 2000 13:44:20 +0900 From: ソフトインストール会社VICS> 東京武蔵野市の高橋です。grとjarviにポストしています。 こんばんは!柳町です。 > > ちょっと急ぎでPDFファイル(英文)を読みたいのですが、テキスト化するには、 > どうすればよいでしょう? かっと&ペーストではどうでしょう。まず文章を開き、CTRL+A、CTRL+ Cの順に押します。 続いてメモ帳やワードパッドを開き、CTRL+Vを押しましょう。 これで、張り付いたと思います。 これでもだめならメールください。 ページの最初に戻る
Subject: [jarvi:14298] Re: PDFファイルのテキスト化 Date: Fri, 21 Jul 2000 19:57:19 +0900 From: Reiko TAKAHASHI(高橋玲子) 東京都武蔵野市の高橋です。 柳町さん、ありがとうございます! } かっと&ペーストではどうでしょう。まず文章を開き、CTRL+A、CTRL+Cの順に押します。 } 続いてメモ帳やワードパッドを開き、CTRL+Vを押しましょう。 } これで、張り付いたと思います。 } これでもだめならメールください。 やってみました。 ところが、なにかがへんみたいで、うまく行きません。CTRL+A、CTRL+ Cとやったところで、98Readerがぷっつり黙ってしまいます。 読もうとしているPDFファイルは、全部で13ページありました。で、例のEmail サービスでの変換結果によると、まず文章の最初に、ページ番号の'1'が書かれて いるみたいなんです。 CTRL+A、CTRL+Cとすると、98Readerが「1」とだけ発声して沈黙 してしまいます。以後、どこをどう操作しても98Readerは復活しません。Window sの動きも、思いっきり遅くなっているみたいなんです(でも、これは気のせいか もしれません……)。 謎ですよね……なにが起こっているんでしょう? なお、CTRL+Aした際に、単一ページを取り込むか、文書全体を取り込む かの選択ができることを、個人メールで教えていただきました。それで、両方試 してみたのですが、1ページだけの取り込みでも、結果は一緒でした。 なにか原因に心当たりがあるようでしたら、ぜひ教えてください。 ページの最初に戻る
Subject: [jarvi:14325] Re: PDFファイルのテキスト化 Date: Sun, 23 Jul 2000 13:50:52 +0900 (JST) From: tetuo tanaka田中哲夫でス。 横から失礼いたします。 Reiko TAKAHASHI (高橋玲子) Wrote: > ところが、なにかがへんみたいで、うまく行きません。CTRL+A、CTR > L+Cとやったところで、98Readerがぷっつり黙ってしまいます。 98Readerは読ませた文字によってフリーズする事があります。 PDFではよくそのような事を経験しますね!! 98Readerがクリップボード読みになっていたらそれを外してからぽう1度やってみ てはどうでしょうか? メモ帳に貼り付けたら上下カーソルで読まずに左右カーソルで1文字ずつ読んで見 てください。 siftjisなんとかかんとか言うのがあれば、だいたいそれが原因だろうと思います。 メモ帳に貼り付けられない様でしたらセキュリティーのかかっているPDFファイルでしょうね。 ページの最初に戻る
Subject: [jarvi:14332] Re: PDFファイルのテキスト化 Date: Mon, 24 Jul 2000 00:50:29 +0900 From: Reiko TAKAHASHI(高橋玲子) 東京武蔵野市の高橋です。 田中哲夫さん、ありがとうございます! Reply tetuo tanaka 's message: } 98Readerは読ませた文字によってフリーズする事があります。 } PDFではよくそのような事を経験しますね!! } 98Readerがクリップボード読みになっていたらそれを外してからぽう1度やってみてはどうでしょうか? やってみました。成功です! やはり、98Readerの問題だったみたいですね……。 それで、左右カーソルで少しだけ辿ってみたのですが、怪しげなコードは見あ たらないんです。不思議…… ただ、メール・サービスでテキスト化されてきたファイルの中には、たしかに、 いくつか得体の知れないコントロール・コード(?)が混ざっていました。そのあた りがいたずらしてたのかもしれないですよね。 ありがとうございました! ページの最初に戻る
JARVI/ML Technical Digest Indexへ