投稿日 | : 2003/10/09(Thu) 20:02 |
投稿者 | : neptune |
Eメール | : |
URL | : |
タイトル | : Re^5: 検索を早くしたい |
こんばんは
魔界の仮面弁士さんにご紹介いただいた「茶筅」について、少々、発見がありましたので
報告がてら書き込んでおきます。
Windows版 茶筅(ChaSen)をVBなどから呼び出すためのラッパーDLL
http://member.nifty.ne.jp/hippo2000/ComCha/ComCha.htm
と
茶筅(ChaSen) Homepage(日本語):http://chasen.aist-nara.ac.jp/index.html.ja
を使用しているんですが、茶筅の仕様ですが、結構キツイところがあります。
1.半角カタカナが混ざっていると強制終了してしまう。
2.「。」 chr(161) が混ざっていると、文書の終わりと判断されそれ以降は解析されない
1.は茶筅のMLの過去ログでズバリがありましたが、
2.に関しては茶筅の過去ログ「Windows 版茶筅で使用禁止な文字列について 」
を検査する。
対策
1.全ての半角カタカナは全角カタカナにあらかじめ変換しておく
2.「。」はあらかじめ全角の「。」に変換しておくか、茶筅の過去ログ
「Windows 版茶筅で使用禁止な文字列について 」を読んで総合的な検査方法を考える。
質問後、数日してからずっと悩んでいましたので、もし他の方で悩んでいる方でも
おられましたら参考になれば幸いです。
ところで、本題であった、DBの検索速度ですが、解析を使いこなしてない事や、その後の
データ加工などの改善点は多々ありますが、KeyWord検索にして、Likeを使わないように
する事で20数秒掛かっていたものが測る必要も感じないほど早くなりました。
DBサイズは2倍強になりましたけど。
感謝です。まだぼちぼちやっていきます。v^ ^