ビットパラレル手法 文字列の類似度計算を高速化する手法です。 文字列の類似を測る手法の一つに編集距離があります。 編集距離では、置換、挿入、削除の操作を行う回数でどの程度文字列が似ているかを数値化します。 ビットパラレル…
カテゴリー: 統計・解析
統計・解析
ジャロ・ウィンクラー距離 とは
by T.S •
ジャロ・ウィンクラー距離は、文字列の類似を測る手法の一つです。 タイプミスや、表記ゆれを見つけることを目的とした手法です。 そのため、先頭文字がどの程度一致しているかが類似度に影響します。 また、編集距離と同じように置換…
統計・解析
ゲシュタルトパターンマッチング とは
by T.S •
ゲシュタルトパターンマッチング単語や文章の類似を測る手法です。 ある文章と、別の文章を比較することで、類似度を算出します。 類似度は、一致する文字列が長さが影響します。 ただし、あくまで、文字列としての一致を測るため、コ…
統計・解析, 雑談
Fuzzy logic and Fuzzy Technology
by admin •
Fuzzy mathematics, particularly fuzzy logic, has significant effects on a wide range of technologies and compu…
用語集, 統計・解析
ノンパラメトリックアプローチ
by H.K •
ノンパラメトリックアプローチ とは? 統計学の用語です。 そもそも「パラメトリック」って何? ▶パラメータに基づくデータを想定して行う手法群のこと。 特定の分布=特に母集団が正規分布であるとか そういった場合を仮定して検…
統計・解析
NorikraとFluentdを動かしてみた
by admin •
NorikraとFluentdを動かしてみた Esperを内部で使用しているNorikraで、動的クエリを使ってみる。 Norikra付属のクライアントの代わりにFluentdでデータを流し込むようにする。 Fluent…
統計・解析
Esperを動かしてみた
by admin •
Esperを動かしてみた K.N.です。久しぶりに技術ブログを書きます。 今回は『Esper』について。意外に古めのライブラリですが、Esperそのもについての日本語の情報があまりなかったので、動作環境を作ってみました。…
クラウド・仮想化, 本, 統計・解析
『ビッグデータの正体』
by T.M •
2013年5月に日本語訳が発売されたベストセラー本. 2年半近く経過し,読み直すと,また違う発見があるし,今,考えるべきことのヒントが得られたような 気がする. 行き詰まると,思考のパターンが固まってくる,というか過去の…
統計・解析
Rのお勉強
by T.M •
もう何か月も「R」を触っていません. コマンドも怪しい状況です. このままでは拙いです. ここ1~2か月の間の学習の中に組み入れる! 1.Rのバージョンを上げる. 2.Rstidioをインストールする. (イマ,ココ) …
統計・解析
多変量解析・データマイニング・テキストマイニング マイマイ
by T.M •
オンラインで使える分析サイトがオープンしました! その名もマイマイ(My Mining/マイ マイニング)! 『多変量解析・データマイニング・テキストマイニング』 主成分分析,因子分析,頻度分析,双対尺度法(コレスポンデ…