tagCANDY CGI VBレスキュー(花ちゃん) の Visual Basic 2010 用 掲示板(VB.NET 掲示板)
VBレスキュー(花ちゃん) の Visual Basic 2010 用 掲示板(VB.NET 掲示板)
[ツリー表示へ]  [ワード検索]  [Home]

タイトル Re: Webbrowser.DocumentからHTMLでタグのないテキストを取得したい
投稿日: 2005/10/12(Wed) 12:34
投稿者YAS
なおこ(・∀・) さんありがとうございます。
なおこ(・∀・) さんのコードで私のhtmlの例は処理できました。
ところが実際に処理したいwebページのhtmlを処理させると
xmlの「予期されていないトークン」のエラーがでてしまいました。
これは対象のhtmlがxmlとみなせるよう整形されていないためだと
思います。(htmlはルールが相当ゆるいようです。)
.netにはhtmlreaderはないようなので、htmlをxhtmlに変換しようと
思いましたが、正規表現で簡単に置換ともいかないようです。

ふもふもさんありがとうございます。
確かに
me.webbrowser.document.body.innerText
でbodyの中のTextは得られるのですが、一部を置換してもとのhtmlに
埋め戻すことができません。body.innerTextもしくはinnerHtmlを変更
してしまうと子エレメントの<b></b>がなくなってしまいます。
目的はwebページの中のリンクや本文の中から漢字を見つけ、IMEの逆変換
やkakasiを使って読みがなを得て<ruby><rb>漢字<rt>かんじ</ruby>と
置換したいのです。
body全体を一気にkakasiにかけ、正規表現で置換をかけることもできますが、
ボタンやイメージのキャプションにもルビタグが入ってしまうのです。
そこでDOMツリーを再帰で検索しながら本文と特定のタグのテキストだけに
処理をしようと思ったのですが...なかなかうまくできません。

検索してみるとJAVAではノードという概念ですべての要素にアクセスできる
ようです。
mshtmlや.netの2003のwebbrowserコントロールで処理できないかさらに調
べてみます。

長文・乱文失礼いたしました。

- 関連一覧ツリー をクリックするとツリー全体を一括表示します)

古いスレッドにレスはつけられません。