タイトル : Webbrowser.DocumentからHTMLでタグのないテキストを取得したい 投稿日 : 2005/10/10(Mon) 12:07 投稿者 : YAS
[OSのVer]:Windows XP [VBのVer]:VB.NET 2005 beta2 VB.NET2005Beta2(ベータで恐縮です)のWebbrowserコントロールに次のようなHtmlを読み込ませ, Documentプロパティから各エレメントのテキスト(innerText)にアクセスしたいのですが,タグの ないテキストを選択できず,困っています。 下のHtmlの"いつも参考に"の部分は me.Webbrowser.Document.body.children(0).innerText で選択できますが, "VBレスキューを" や "させていただいています。"という部分をDOMツリーか ら選択するには どうしたらよいのでしょうか。bodyエレメントのinnerTextでは "VBレスキューをいつも参考にさせていただいています。" となってしまいますし,bodyの子エレメントにタグのない部分は含まれません。 (bodyの子エレメント数は1で<b>〜</b>の部分です。) MSHTMLについても検索したのですが,どうしてもわかりません。 なお,目的は教育目的でWebページの漢字にかなをふることです。ボタンや図表などの漢字に も<ruby>タグをつけてしますとおかしなことになるので,<a>タグや本文だけを対象に処 理を したいと考えています。正規表現で処理しようとしていたのですが,例外的な処理に悩み DOMでアクセスしたいと考えました。 長文・乱文で失礼いたしました。 どなたかご教授をお願いいたします。 <html> <body> VBレスキューを<b>いつも参考に</b>させていただいています。 </body> </html> |