クローラ + 文書タグ付け

□重要単語の抜出

文書中から重要だと考えられる単語を抜き出します。
自動タグ付けは、より人間をサポートする機能の実現に欠かせない技術です。

  • 出現頻度による抽出
  • 共起による抽出
  • グラフによる抽出

□特定文書の発見

指定されたキーワードに関連する文書をウェブからクロールします。
これはキーワードが直接含まれている文書だけを対象とするものではありません。
キーワードについて関連すると考えられる文書についても対象とします。

指定キーワード例:「AI」

○キーワードが含まれている記事
○キーワードが含まれていないが関連する記事
×キーワードが含まれておらず関連しない記事
ウェブ上の文章だけでなく、社内や手元の端末で管理しているPDF等の文書ファイルに対しても有効です。
キーワードで直接的に文書ファイルを検索するのではなく、キーワードに関連した内容で文書ファイルを検索します。
これにより、目的の文書ファイルをより多く得られ、時間短縮や効率アップを図ることができます。

□自動タグ付け

文書の内容を読み取り、文書の本質を表すような仮想的なタグを自動で付与します。
※鋭意製作中

□文書の分類

デジタルコンテンツ(Web上のHTMLページやPDF)より、文書の構造を解析します。

レポート内の画像に含まれる統計図表の種類や範囲、テキストの範囲を取得します。

キーワードを採取、それに関連する詳細情報を採取します。