トップ  > メモ一覧  > カテゴリ「全文検索」の絞り込み結果 : 7件

7件中 1 〜 7 表示  1 

No.1798【引用】全文検索エンジンlucene(ルシーン)を使ってみた


全文検索エンジン lucene(ルシーン) を使ってみた

こんにちは 。 検索 関連 を 担当 して いる やましー です 。

今回は livedoor で提供しているサービスの中の「検索関連」について書きます。

このブログでも過去に何度か取り上げられていますが、livedoor では検索エンジンとして HyperEstraier、lucene、mysql + senna、Namazu、SUFARY などを利用しています。

その中で lucene の利用方法や機能拡張について説明します。

lucene とは

Apache Lucene は、Java で書かれた高性能で高...

引用元

更新:2009/11/30 15:58 カテゴリ: web開発  > 全文検索 ▲トップ

No.1796【引用】検索エンジンを作る

検索エンジンを作る

工藤智行
いまや誰もがコンピュータに向かって必ず使う「検索」。その検索を行う心臓部といえるのが検索エンジンです。この連載は,既存の検索エンジンの機能にあきたらず,自ら検索エンジン作りに乗り出した技術者の貴重な体験記です。

 

第20回 転置インデックスの実装(その2)

ブロックの拡張問題
FINDSPOTの初期の実装
ハードディスクのスピード
現在のFINDSPOTの実装
次回予告

...

引用元

更新:2009/11/30 15:22 カテゴリ: web開発  > 全文検索 ▲トップ

No.1791【引用】HyperEstraier

Hyper Estraier
出典: Public KFSPedia

目次
[ 非表示 ]

1 更新日の降順で検索
2 お気に入りのestseek.cgi
3 お気に入りのestcmd gather
4 順序指定
5 属性
6 検索条件

if (window.showTocToggle) { var...

引用元

更新:2009/11/30 09:23 カテゴリ: web開発  > 全文検索 ▲トップ

No.1718【引用】PHPで日本語形態素解析をがんばる

PHPで日本語形態素解析をがんばる
php
ども〜
なんか、いろいろ実験してみたくなったので インストール の手順まとめ。
Debian でやってます。
日本語 形態素解析 につかうエンジンは、案の定 MeCab を使います。ちなみに、食べ物としての和布蕪はあまり得意ではないよ。
とりあえず、上記サイトからブツを落としてきて展開後

$ ./configure --with-charset=utf8
$ make
# make install

エンコーディング についてゴニョゴニョやるのをお忘れ無く
さらに、同じく上記においてあ...

引用元

更新:2009/11/10 14:41 カテゴリ: web開発  > 全文検索 ▲トップ

No.1294【引用】新検索エンジン『groonga』


新検索エンジン『groonga』

全文検索エンジンSennaと言えば、未来検索ブラジルの生み出した傑作フリーソフトウェアとしてつとに有名であるが、いよいよその後継プロジェク トであるgroonga(ぐるんが)が、2月20日にテストリリースされた。新しい検索エンジンgroongaはいったいどのようなソフトウェアなのだろ うか?正式リリースより一足早く、その特徴をレポートしてみた。
groongaは組み込み型の全文検索エンジンライブラリです。DBMSやスクリプト言語処理系等に組み込むことによって、その全文検索機能を強化 すること...

引用元

更新:2009/08/09 11:33 カテゴリ: web開発  > 全文検索 ▲トップ

No.1293 全文検索エンジンまとめ

全文検索エンジンまとめ

spacer
いろいろ全文検索エンジンあるけど、いったいどれがどう違うのか迷う。なので、どれは何ができて、何ができないか、主だった違いポイントをまとめてみた。対象は Lucene, HyperEstraier, Rast, Namazu, Senna, Oracle Text。

【検索エンジン <-> RDBMS+全文検索エンジン】
- 検索エンジン単体では relation が張れない(当然)。次のような SQL 相当の事ができない(しない)。
SELECT * FROM test,test2 WHERE test.testCol1=test2.testCol2 AND MATCH(testCol1) AGAINST 'ほげ'
- 検索エンジンの sort は、score ベースである。ORDER BY を指定しないと順序不定、ということはない。
- 検索エンジン単体のほうがスコアリングに手を出しやすい。
- 検索エンジン単体だと limit,offset 指定がなくて全結果が返ってくるインターフェースしかない状態に陥ることもある。
- 検索エンジン単体のほうが表記ゆれに手を出しやすい。
- HA 構成は、検索エンジン単体のほうが組みやすい。
- 基本的には、検索エンジンのほうが機能要素として小さい。
- 属性検索を備えている検索エンジンは、ほぼ RDBMS のテーブル相当の動きができる。
- 検索エンジンは検索条件式が特殊。RDBMS SELECT に方言レベルの違いがある。


【検索要素の捕らえ方】
- Lucene におけるドキュメントは「属性」を持っていて、その属性は全文検索の対象かあるいはただのデータ。
- HyperEstraier におけるドキュメントは「本文+属性」で、本文のみが全文検索対象。
- Rast HyperEstraier と同じ。
- Namazu におけるドキュメントは「本文」のみ。
- Senna Lucene の属性を RDBMS のテーブルに押し出したと見ることもできる。

検索時に Index は一つしか使いませんという割りきりができる場合は、HyperEstraier, Rast, Namazu。
検索時に Index は一つで形態素解析しか使いませんという割りきりができる場合は、Namazu。
検索時に Index は一つで N-gram しか使いませんという割りきりができる場合は、Rast。
複数属性(フィールド)があって、それぞれに全文検索したい場合は、Lucene Senna。

Lucene は解析エンジンがプラグイン化されている。
いわゆる RDBMS でのテーブルのような感覚により近しいのは Lucene。

HyperEstraier はドラフト文書形式の制約に縛られやすく、改行コードが扱いにくい。
HyperEstraier は独自の表記ゆれ修正を施すので、オリジナルデータは別の場所に保存しておかなければならない(ファイルシステムとして使用することはできない)。


【PostgreSQL <-> MySQL <-> Oracle】
PostgreSQL + Ludia(Senna)
INDEX作成 : CREATE INDEX ON test USING fulltext(testCol1)
@@演算子 : SELECT * FROM test WHERE testCol1 @@ 'ほげ'
MySQL + Triton(Senna)
INDEX作成 : CREATE FULLTEXT INDEX ON test(testCol1)
MATCH関数 : SELECT * FROM test WHERE MATCH(testCol1) AGAINST 'ほげ'
Oracle (Oracle text)
INDEX作成 : CREATE INDEX idx_testCol1 ON test(testCol1) INDEXTYPE IS CTXSYS.CONTEXT
CONTAINS関数 : SELECT *,score(1) FROM test WHERE CONTAINS(testCol1, 'ほげ', 1) > 0

- レプリケーション構成(HA)の問題が出やすいのは PostgreSQL
- INDEX のモジュール化が進んでいるのは PostgreSQL。Ludia はかなり美しく plugin できるようだ。
- Oracle は文脈とか見たりしてスコアリングをいろいろやりたいと思っているらしい。…ガンバレ。
 

引用元

更新:2009/08/09 00:31 カテゴリ: web開発  > 全文検索 ▲トップ

No.1163【引用】オレオレ検索窓を設置しよう

オレオレ検索窓を設置しよう
By mikio on 7 月 16, 2009 in algorithm , mixi .

まだピクミン2をクリアしてないのでケジメ的に新作ゲームを買えないmikioです。今回は、Tokyo Cabinetを使って激烈簡単に特定サイトの専用の検索機能を設置する方法について説明します。クローリングから検索までを10分くらいの作業で可能にします。

特定サイトの検索エンジン
Web全体の検索機能を作るのは、途方もない技術力と設備を持っているGoogleやMicrosoftなどのビッグプレーヤでないと難しいのが現 実です。でも、...

引用元

更新:2009/07/16 13:09 カテゴリ: web開発  > 全文検索 ▲トップ
7件中 1 〜 7 表示  1 

FuelPHP

Mac

web開発

プロマネ

マネタイズ

プレゼン

webサービス運用

webサービス

Linux

サーバ管理

MySQL

ソース・開発

svn・git

PHP

HTML・CSS

JavaScript

ツール, ライブラリ

ビジネス

テンプレート

負荷・チューニング

Windows

メール

メール・手紙文例

CodeIgniter

オブジェクト指向

UI・フロントエンド

cloud

マークアップ・テキスト

Flash

デザイン

DBその他

Ruby

PostgreSQL

ユーティリティ・ソフト

Firefox

ハードウェア

Google

symfony

OpenPNE全般

OpenPNE2

Hack(賢コツ)

OpenPNE3

リンク

個人開発

その他

未確認

KVS

ubuntu

Android

負荷試験

オープンソース

社会

便利ツール

マネー

Twig

食品宅配

WEB設計

オーディオ

一般常識

アプリ開発

サイトマップ

うずら技術ブログ

たませんSNS

rss2.0