統計解析BI

会社のデータはどんどん溜まっていくが、​

「量が多すぎて分析できない」​
「整理はしたが、そこで止まっている」​
「使い方次第なんだろうけど・・・」​

など、モヤモヤしている場合、創屋のビッグデータナレッジで解決しませんか。​

データは会社の資産です。
眠らせずに企業の経営戦略の意思決定や、需要予測・品質管理・商品開発などに活用できるような形にすることが大事です。​

■経営戦略のための意思決定を支援する – BI(ビジネスインテリジェンス)​とは?

業務システムなどから蓄積される企業内の膨大なデータを、蓄積・分析・加工して、企業の意思決定に活用しようとする手法を BI ( ビジネスインテリジェンス ) といいます。
BIには以下の技術が使用されています。

□データ管理系機能

DWH

DWH(データウェアハウス)とは、企業の膨大な情報を蓄積し、活用することまで考えて作られたデータベースのことです。
取引等を記録し、同じ意味を持つデータを統合、横断的に扱えるようにして時系列に保存します。

ETL

企業に記録されるデータは一つのデータベースで管理されてはおらず、複数のシステムで管理されていることが普通です。
そのままの状態では、データを横断的に扱うことができないので、それぞれのシステムからデータを取り出しDWHに受け渡す仕組みをETLと呼び、Extract、Transform、Loadの一連の処理を意味します。 Extract 企業の複数システムなど分散して蓄積されたデータを抽出すること。
Transform 抽出したデータを分析時に利用しやすい形に変換・加工すること。 Load 変換・加工したデータをデータウェアハウスに書き出すこと。

Extract

企業の複数システムなど分散して蓄積されたデータを抽出すること。

Transform

抽出したデータを分析時に利用しやすい形に変換・加工すること。

Load

変換・加工したデータをデータウェアハウスに書き出すこと。

□分析系機能

オンライン分析処理 ( OLAP : Online Analytical Processing )

企業に蓄積された膨大なデータを収集し、多次元データベースを生成します。
それを元に複雑な分析をする処理、もしくはそのシステムのことです。
実装されたシステムは、グラフィック表示や項目選択を多用した操作画面、表やグラフなどを用いた分かりやすい結果表示などの機能を揃えているものが多いです。
代表的なアーキテクチャーは以下の2つがあります。

  • MOLAP(Multidimensional OLAP)
    分析元となるデータベースから、独自の多次元データベースを構成して、分析・集計を行う方法です。  
  • ROLAP(Relational OLAP)
    分析元となるデータベースに、多次元データベースを擬似的(論理的)に構成して利用する方法(利用者 からの問い合わせに応じてデータを抽出、集計して分析結果を提供しています)。

独自の多次元データベースの実体を構成しないため、元データのリアルタイムな処理が可能で、メーカーによる仕様の違いが小さく互換性が高いです。
代表的なBIツールである「JasperReports」「Pentaho」などのアーキテクチャーとして採用されています。

データマイニング

業務システムなどから蓄積された膨大なデータの集合をコンピュータによって解析し、これまで知られていなかった規則性・傾向を見つけます。
例えば、「商品Aを買った人は商品Bを買う頻度が高い」といったパターンなどを見つけ出す事により、企業の方針決定に役立てる事ができます。

■創屋のBI(ビジネスインテリジェンス)

quicksight

クラウドネイティブのサーバーレスインテリジェンスサービス「Amazon QuickSight」を利用したBIを提案させていただきます。​
導入や効果的な利用をサポートいたします。

□「Amazon QuickSight」特徴・メリット

・分かりやすいダッシュボード

 ダッシュボードを簡単に作成し、ブラウザからセキュリティが担保された方法でアクセス可能。
 グラフなどでデータを可視化できるので、分かりやすく組織内の共有化も進み易い。​

スマホでも閲覧可能。

​ 最適化により場所を選ばず利用できる

・サーバーレスで手軽に利用可能

​ インフラストラクチャの管理不要で、手軽にサービスを利用できる

・アプリケーションへの組み込みが簡単

 埋め込みにコードを書く必要なく、社内ポータルサイトやSaaSにAPI連携で組み込み可能。​

・機械学習での分析

 MLInsightを使えば、予測、異常検知、自動ナラティブなどで作成したモデルと連携し可視化できる。
 複雑なデータパイプラインなし。​

・従量課金で使用分だけの支払い

ダッシュボードへアクセスするセッション単位の従量課金で初期費用なく、低コスト。

■創屋の統計・解析

創屋では、R言語、NumPy/SciPy/Pandas/NumExpr​ など、データに適したツールを使い、問題解決のお手伝いを行っています。

□R言語

R言語

オープンソースソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。

 

特徴

  • オープンソースソフトウェアの統計ツール
  • ベクトル演算による柔軟な計算
  • 標準的な統計・解析の手法をコマンドで簡単に実行
  • 不足している機能はパッケージで補完し、そのパッケージも自作可能
  • グラフ機能により解析結果を可視化

創屋 × R

  • データの特徴の把握
  • データマイニングによる相関関係・因果関係の解析
  • パケットデータなどの異常検知
  • 時系列データより未来予測

 

□NumPy / SciPy / Pandas / NumExpr​

ライブラリ説明特徴
NumPyPythonにおいて、基本的な数値計算を支援するライブラリです。・Pythonだけではできないような、高度な数値計算ができます。
・内部はC言語によって実装されているため、高速に動作します。
SciPyPythonにおいて、数値解析を支援するNumPyを基にしたライブラリです。・多言語を使わずPythonのみで、統計・解析ができます。
・統計 / 最適化 / 積分 / 線形代数 / フーリエ変換 / 信号・イメージ処理 / 遺伝的アルゴリズム / ODE (常微分方程式) ソルバ / 特殊関数 を提供します。
PandasPythonにおいて、データ解析を支援するライブラリです。
Pandsを使用することで行列計算を簡単に行うことができるようになり、Rで行っている集計作業がPythonでも容易にできるようになります。
・Pythonで集計作業ができます。
・処理速度がRに比べて速いです。
・同じPythonで扱える NumPy / SciPy と組み合わせることでより高度な解析ができます。
NumExpr​Pythonにおいて、NumpyとPandasを使用した数学的計算を高速化します。​・Numpyが用意した配列のループ処理をマシンのリソースが最大限活用される​よう最適化します。​
・データの件数が大量にある場合は使用が推奨されます。​

創屋 × NumPy / SciPy / Pandas/NumExpr​

  • データ整理・集計
  • データマイニングによる相関関係・因果関係の解析
  • 時系列データより未来予測
  • 機械学習への応用

 

■システム開発

データの特性や知りたいこと、やりたいことによって解析の手法は様々です。

  • ウェブサイトのアクセスログから、もっと良いウェブサイトに作り直したい!
  • 工場の製品の品質を向上させたい!
  • 取引先や営業の関係から今後の戦略を立てたい!

創屋にお任せください。
お客様が持っているデータからビジネスチャンスを広げます。
データ収集のシステムからお任せしたい、といった相談でもかまいません。
まずはお問い合わせください。

創屋ぷれす – 統計・解析