JP2021189833A - 特徴量生成方法及び特徴量生成装置 - Google Patents

特徴量生成方法及び特徴量生成装置 Download PDF

Info

Publication number
JP2021189833A
JP2021189833A JP2020095384A JP2020095384A JP2021189833A JP 2021189833 A JP2021189833 A JP 2021189833A JP 2020095384 A JP2020095384 A JP 2020095384A JP 2020095384 A JP2020095384 A JP 2020095384A JP 2021189833 A JP2021189833 A JP 2021189833A
Authority
JP
Japan
Prior art keywords
feature amount
reference date
series data
feature
negative example
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020095384A
Other languages
English (en)
Other versions
JP2021189833A5 (ja
JP7481909B2 (ja
Inventor
常之 今木
Tsuneyuki Imaki
大輔 田代
Daisuke Tashiro
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020095384A priority Critical patent/JP7481909B2/ja
Publication of JP2021189833A publication Critical patent/JP2021189833A/ja
Publication of JP2021189833A5 publication Critical patent/JP2021189833A5/ja
Application granted granted Critical
Publication of JP7481909B2 publication Critical patent/JP7481909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】時系列データから目的事象の発生を予測する機械学習モデルを生成する際に、機械学習の入力データ数が膨大になるのを抑制し、負例の時系列データの基準日を決定する。【解決手段】計算機が、値とタイムスタンプを含む複数の時系列データを受け付け、前記目的事象が発生したタイムスタンプを含む目的事象発生データを受け付け、特徴量算出定義を受け付け、目的事象発生データを参照して時系列データを、正例時系列データと負例時系列データに分割し、正例時系列データにおける正例基準日を決定し、正例時系列データと正例基準日の組み合わせから正例特徴量を算出し、正例基準日、正例特徴量及び前記負例時系列データから負例基準日を決定し、負例時系列データと負例基準日の組み合わせから負例特徴量を算出する。【選択図】図2

Description

本発明は、時系列データから生成した特徴量で機械学習を行う特徴量生成装置及び特徴量生成方法に関する。
時系列データから機械学習のモデルを生成する技術としては、例えば、特許文献1が知られている。特許文献1には、製造装置の時系列データ(例えば、センサ値やイベントログ)からの故障予測を目的としたMIL(Multiple Instance Learning)に関して、negative bagのサブセットを複数抽出し、該サブセット毎にpositive bagと併せて学習させた分類器を生成し、該分類器群の(各特徴量に掛かる)重みの平均が大きい特徴量を優先して選択し、該特徴量を入力として故障予測モデルを学習させる技術が開示されている。
また、特許文献2には、製薬における副作用の検出を目的として、患者毎の医療事象の履歴を対象に、投薬から特定期間内に発生した疾患の組み合わせや、他の医療事象(例えば、入院や医療費)の時系列パターン及び既知の投薬と副作用の組み合わせ(positive/negative)を学習して、ある医療事象の履歴が副作用発生のケースであるか否かをスコアリングする技術が開示されている。
また、特許文献3には、訓練データのラベル付与に関して、主要な特徴量(数個)から始めて、ラベリングに役立つ追加の特徴量を、熟練者に提示して選択してもらうことを何度か繰り返すことで、徐々に特徴量を増やしてラベルの再現率を高め、適切な個数の特徴量で正例の全てに該ラベルを付与する技術が開示されている。
米国特許出願公開第2015/0227838号明細書 米国特許出願公開第2017/0083670号明細書 国際公開第2019/045759号
上記従来例では、人手によらず学習させる特徴量を絞り込むことは考慮されていない。このため、特徴量の積などによって説明変数を合成するような場合では、説明変数の組み合わせ数が膨大になる場合がある、という問題があった。
また、時系列データから、目的事象の発生(正例)を予測する機械学習のモデルを生成する際には、機械学習の入力データとなる特徴量を正例と負例から生成する。正例の時系列データは、分析対象期間を目的事象の発生した日(又は日時)を基準日とし、基準日から所定期間を分析対象期間とする。
一方、負例の時系列データは、分析対象期間は正例と同一ではあるが、目的事象が発生していないため、前記従来例ではどのように負例の基準日を決定するかについては考慮されていない、という問題があった。
そこで本発明は、上記問題点に鑑みてなされたもので、時系列データから目的事象の発生を予測する機械学習モデルを生成する際に、機械学習の入力データ数が膨大になるのを抑制し、負例の時系列データの基準日を決定することを目的とする。
本発明は、プロセッサとメモリを有する計算機が、時系列データを受け付けて目的事象の発生を予測する機械学習部への入力データとなる特徴量を生成する特徴量生成方法であって、前記計算機が、値とタイムスタンプを含む複数の時系列データを受け付ける時系列データ入力ステップと、前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データを受け付ける目的事象発生データ入力ステップと、前記計算機が、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義を受け付ける特徴量算出定義入力ステップと、前記計算機が、目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する分割ステップと、前記計算機が、前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定ステップと、前記計算機が、前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する正例特徴量算出ステップと、前記計算機が、前記正例基準日、前記正例特徴量、及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定ステップと、前記計算機が、前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出する負例特徴量算出ステップと、を含む。
したがって、本発明は、特徴量の重要度が高い方から特徴量重要度の累積値を算出し、該累積値に対する閾値に基づいて、重要度の低い特徴量から徐々に排除することで、重要な特徴量を絞り込むことで、特徴量(説明変数)の組み合わせが膨大になるのを抑制することが可能となる。また、負例の時系列データから、正例の特徴量に近いことを指標として負例の基準日を決定することが可能となる。
本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。
本発明の実施例1を示し、経時データ分析装置の構成の一例を示すブロック図である。 本発明の実施例1を示し、経時データ分析装置で行われる処理の一例を示す図である。 本発明の実施例1を示し、特徴量重要度累積値グラフの一例である。 本発明の実施例1を示し、特徴選択部で行われる処理の一例を示すフローチャートである。 本発明の実施例1を示し、経時特徴量生成部で行われる基準日のスライディング処理の一例を示す図である。 本発明の実施例1を示し、負例基準日決定部で行われる負例基準日の決定処理の一例を示す図である。 本発明の実施例1を示し、負例基準日決定部の構成の一例を示す図である。 本発明の実施例1を示し、負例基準日決定部で行われる処理の一例を示すフローチャートである。 本発明の実施例2を示し、経時データ分析装置で行われる処理の一例を示す図である。 本発明の実施例2を示し、経時データ分析装置で行われる重要度のフィードバック処理の一例を示す図である。 本発明の実施例2を示し、経時特徴量生成部と特徴選択部で行われる処理の一例を示すフローチャートである。 本発明の実施例3を示し、負例基準日決定部で行われる処理の一例を示す図である。 本発明の実施例4を示し、時系列データと予兆期間の関係を示すグラフである。 本発明の実施例4を示し、負例基準日決定部で行われる処理の一例を示す図である。 本発明の実施例4を示し、負例基準日決定部で行われる処理の変形例を示すフローチャートである。
以下、本発明の実施形態を添付図面に基づいて説明する。
図1は、本発明の実施例1を示し、経時データ分析装置1の構成の一例を示すブロック図である。
経時データ分析装置1は、プロセッサ2と、メモリ3と、ストレージ装置4と、入力装置5と、出力装置6と、通信装置7を含む計算機である。
本実施例の経時データ分析装置1は、学習用の時系列データ102として例えば、金融機関の口座残高を使用し、目的事象として債務不履行(貸し倒れ)の発生を用い、口座残高の時系列の推移から債務不履行の発生を予測する機械学習のモデルを生成する例を示す。
なお、時系列データ102は、口座残高に限定されるものではなく、また、目的事象は債務不履行の発生に限定されるものではなく、例えば、物理量の時系列から故障発生などの目的事象の発生を予測するようにしてもよい。
本実施例の時系列データ102は、口座の識別子毎に、値(残高)とタイムスタンプ(日付)と予め設定された識別子を一つのレコードに含む。
経時データ分析装置1のメモリ3には、予め収集された時系列データ102から特徴量を算出する経時特徴量生成部110と、特徴量の絞り込みを行う特徴選択部150と、機械学習を実施して予測モデルを生成する機械学習部160を格納する。
経時特徴量生成部110と、特徴選択部150と、機械学習部160の各機能部はプログラムとしてメモリ3にロードされる。
プロセッサ2は、各機能部のプログラムに従って処理を実行することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ2は、特徴選択プログラムに従って処理を実行することで特徴選択部150として機能する。他のプログラムについても同様である。さらに、プロセッサ2は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
経時特徴量生成部110は、時系列データ分割部111と、正例基準日決定部114と、負例基準日決定部119と、特徴量算出部116を含む。時系列データ分割部111は、時系列データ102を目的事象(債務不履行)が発生した正例の時系列データと、目的事象が発生しない負例の時系列データに分割する。
正例基準日決定部114は、目的事象発生時刻データ101を参照して目的事象が発生した日時を正例基準日として決定する。負例基準日決定部119は、後述するように、負例の時系列データから算出した特徴量に基づいて負例の時系列データの基準日を決定する。特徴量算出部116は、後述するように、正例の時系列データと、負例の時系列データからそれぞれ特徴量を算出する。
特徴選択部150は、特徴量重要度算出部151と、特徴量累積閾値判定部153を含む。特徴量重要度算出部151は、後述するように、特徴量の値の増減が、機械学習部160で生成されるモデルの予測値にどの程度の影響を与えるかを示す指標を重要度として算出する。特徴量重要度算出部151は、例えば、LightGBMとSHAP(SHapley Additive exPlanations)を組み合わせた構成を採用することができる。
特徴量重要度算出部151では、LightGBMで生成した予測モデルが目的事象の有無(1、0)を推測し、SHAPは各特徴量が予測結果に対してどの程度影響を与えたのかを重要度として算出する。
特徴量累積閾値判定部153は、特徴量重要度算出部151が算出した重要度の累積値と所定の閾値Th1を用いて学習対象から排除する特徴量を決定して、特徴量の積から目的変数を合成する際の目的変数の組み合わせの数を絞り込む。
機械学習部160は、特徴選択部150で絞り込まれた正例と負例の特徴量を入力データとして機械学習を実施し、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成する。
ストレージ装置4は、目的事象発生時刻データ101と、時系列データ102と、正例基準日115と、負例基準日120と、正例特徴量118と、負例特徴量121と、特徴量算出定義117と、第1特徴量リスト122と、特徴量重要度152と、第2特徴量リスト154を格納する。
目的事象発生時刻データ101は、時系列データ102のうち予め設定された目的事象が発生した日付と、口座の識別子と、口座の残高を図示しない一つのレコードに含む。時系列データ102は、口座の識別子毎にと、日付と、残高及び識別子などを図示しない一つのレコードに含む。
正例基準日115には、正例基準日決定部114が出力した口座の識別子と、正例の時系列データの基準日が一つのレコードに格納される。負例基準日120には、負例基準日決定部119が出力した口座の識別子と、負例の時系列データの基準日が一つのレコードに格納される。なお、各基準日の決定については後述する。
正例特徴量118には、特徴量算出部116が算出した正例時系列データ112の特徴量と、時系列データ102の識別子が一つのレコードに格納される。なお、正例特徴量118は、特徴量算出定義117で指定された時系列データ102の特徴量で構成される。
負例特徴量121には、特徴量算出部116が算出した負例時系列データ113の特徴量と、時系列データ102の識別子が一つのレコードに格納される。なお、負例特徴量121は、特徴量算出定義117で指定された時系列データ102の特徴量で構成される。
特徴量算出定義117には、特徴量算出方法ユーザ設定103で指定された時系列データ102の処理対象期間や、特徴量の種類や算出方法が格納される。本実施例では、時系列データ102の特徴量として、例えば、平均や、最大や、最小や、分散や、標準偏差や、最大−最小や、変動係数等の統計量を用いるものとする。
第1特徴量リスト122には、特徴量算出方法ユーザ設定103で指定された学習対象の時系列データ102の一覧が含まれる。第1特徴量リスト122は、例えば、時系列データ102の識別子とタイムスタンプを含む。第1特徴量リスト122は、これに限定されるものではなく、算出された正例特徴量118及び負例特徴量121と、特徴量算出定義117で指定された時系列データ102の対応関係が識別可能なデータであればよい。
また、本実施例の第1特徴量リスト122は、特徴選択部150で絞り込まれる前の正例特徴量118と、負例特徴量121の一覧が格納される。
特徴量重要度152には、特徴量の識別子と、特徴量重要度算出部151が算出した特徴量の重要度が一つのレコードに格納される。特徴量の識別子は、正例特徴量118と負例特徴量121の特徴量の識別子に対応する値が格納される。
第2特徴量リスト154には、特徴選択部150で絞り込まれた特徴量の一覧が生成される。機械学習部160には、第2特徴量リスト154に記載されている正例特徴量118と負例特徴量121が入力される。
機械学習部160は、例えば、AT/PRC(AI Technology/Prediction of Rare Case)や周知又は公知の機械学習器を採用することができる。
入力装置5は、例えば、キーボードやマウスあるいはタッチパネルで構成される。出力装置6は、ディスプレイで構成される。通信装置7は、図示しないネットワークに接続されて、情報の授受を行う。
図2は、経時データ分析装置1で行われる処理の一例を示す図である。経時データ分析装置1は、入力装置5や通信装置7を介して、特徴量算出方法ユーザ設定103を受け付ける。
特徴量算出方法ユーザ設定103は、例えば、特徴量として使用する統計量の種類や、機械学習の対象とする時系列データ102の指定や、目的事象発生時刻データ101の指定等を含む。時系列データ102の指定は、学習対象の期間(以下、学習対象期間とする)や、口座の属性(業種等)や口座の識別子を含むことができる。
経時特徴量生成部110では、まず、時系列データ分割部111が、目的事象発生時刻データ101を読み込んで、時系列データ102を目的事象が発生した正例時系列データ112と、目的事象が発生していない負例時系列データ113に分割する。
次に、経時特徴量生成部110の正例基準日決定部114は、目的事象発生時刻データ101の口座の識別子と、目的事象の発生時刻(又は日付あるいはタイムスタンプ)を取得して、目的事象の発生日付を正例基準日115として出力する。
経時特徴量生成部110の負例基準日決定部119は、正例基準日115と正例特徴量118と負例時系列データ113と特徴量算出方法ユーザ設定103の学習対象期間を取得して、負例基準日120を後述するように決定する。
本実施例では、負例基準日120を決定する手法として、負例基準日決定部119が、負例基準日120を正例基準日115から所定の単位でスライドさせて学習対象期間の負例時系列データ113を抽出し、学習対象期間内の特徴量を特徴量算出部116に負例の基準日別特徴量として算出させる。
負例基準日決定部119は、負例基準日の候補を日単位や週単位あるいは月単位でスライドさせながら予め設定された複数の統計期間毎に特徴量を特徴量算出部116に算出させ、基準日をスライドさせた負例基準日の候補毎にクラスタリングを行って負例の基準日別特徴量を算出する。
また、負例基準日決定部119は、正例特徴量118についても、1以上の正例基準日115について前記負例の基準日候補と同様の複数の統計期間で正例時系列データ112の特徴量を算出し、正例基準日115毎に特徴量のクラスタリングを行って正例の基準日別特徴量を算出する。
そして、負例基準日決定部119は、所定の特徴量空間上に、負例の基準日別特徴量と正例の基準日別特徴量を配置して、正例基準日115の特徴量に最も近い負例の基準日別特徴量に対応する基準日候補を負例基準日120として決定する。
なお、負例基準日決定部119は、各基準日別特徴量を複数の次元で生成して、正例と負例の基準日別特徴量の距離は、例えば、幾何学的距離(例えば、ユークリッド距離など)を用いることができる。また、負例基準日決定部119の処理の詳細については後述する。
次に、特徴量算出部116は、正例基準日115と正例時系列データ112を受け付けて、特徴量算出定義117に従って正例特徴量118を算出し、負例基準日決定部119と特徴選択部150及び機械学習部160へ出力する。
また、特徴量算出部116は、負例基準日120と負例時系列データ113を受け付けて、特徴量算出定義117に従って負例特徴量121を算出し、特徴選択部150及び機械学習部160へ出力する。
また、経時特徴量生成部110は、正例特徴量118と負例特徴量121に含まれる正例時系列データ112と負例時系列データ113のリストを生成して第1特徴量リスト122として出力する。
次に、特徴選択部150では、特徴量重要度算出部151が、正例特徴量118と、負例特徴量121と、第1特徴量リスト122を受け付けて、各特徴量毎に特徴量重要度152を算出する。本実施例では、LightGBMで生成した予測モデルの予測結果に与えた影響が大きい特徴量には、値の大きな重要度が付与される。
次に、特徴選択部150では、特徴量累積閾値判定部153が、特徴量重要度152の値が大きい順に第1特徴量リスト122をソートする。そして、特徴量累積閾値判定部153は、特徴量重要度152の値が最大の特徴量重要度から値の累積を行って、累積値が所定の閾値Th1に達するまでの特徴量(正例特徴量118及び負例特徴量121)を学習対象の特徴量として第2特徴量リスト154に格納する。また、特徴量累積閾値判定部153は、その他の特徴量(累積されていない正例特徴量118及び負例特徴量121)を第1特徴量リスト122から削除する。
これにより、特徴量累積閾値判定部153は、経時特徴量生成部110で算出された正例特徴量118と負例特徴量121のうち、特徴量重要度の大きい特徴量に絞り込みを行って、学習対象の特徴量の数を削減する。なお、閾値Th1は、特徴量重要度152の累積値の比率や、特徴量の数の比率など予め設定された値を用いることができる。
また、特徴量累積閾値判定部153は生成した第2特徴量リスト154を特徴量重要度算出部151へ入力して、特徴量重要度152を再度生成し、特徴量累積閾値判定部153でさらに特徴量の絞り込みを行うループ処理を行う。
このような、特徴量重要度算出部151から第2特徴量リスト154を生成するまでのループ処理は、特徴量累積閾値判定部153が、特徴量重要度152の累積値が閾値Th1に達した時点で、第1特徴量リスト122に残り(未処理)のデータが存在する場合には、残り(未処理)のデータを削除してから再度特徴量重要度152の算出を行って、累積値が閾値Th1に達した時点で第1特徴量リスト122に残りのデータが無くなるまで絞り込みのループを行うことができる。
あるいは、特徴量累積閾値判定部153が、第2特徴量リスト154の特徴量の数が、所定の閾値Th2となるまで繰り返すことができる。所定の閾値Th2は、例えば、正例特徴量118と負例特徴量121の特徴量の数の総和に対する比率(例えば、60%以下)など、予め設定された値であればよい。
以上のように、本実施例の経時データ分析装置1は、正例特徴量118の基準日別特徴量に最も近い負例の基準日別特徴量となる基準日を負例基準日120として決定するとことで、目的事象が発生していない負例時系列データ113の基準日を的確に設定することが可能となる。
換言すれば、経時データ分析装置1は、説明変数の組み合わせが類似する正例の特徴量と負例の特徴量を機械学習部160で比較させることで、有意な特徴量で学習を実施することができる。
そして、経時データ分析装置1は、正例特徴量118と負例特徴量121の特徴量重要度を算出して、特徴量重要度が最大の値から所定の閾値Th1までの特徴量を学習対象とし、その他の特徴量を削除することで機械学習部160へ入力する特徴量の数を低減し、かつ、有意な特徴量を機械学習部160へ与えることが可能となる。
図3は、特徴量重要度累積値グラフ301の一例である。特徴量累積閾値判定部153は、特徴量重要度の大きい順に第1特徴量リスト122をソートして、特徴量重要度の累積値を特徴量重要度累積値として算出し、累積した特徴量の数を特徴数として算出する。
図3の特徴量重要度累積値グラフ301は、縦軸を特徴量重要度累積値とし、横軸を特徴数とした例を示し、閾値Th1は、特徴量重要度累積値の比率(例えば、90%)とした例を示す。図示の例では、閾値Th1を超えた重要度に対応する特徴量が削除され、閾値Th1以下の重要度に対応する特徴量が第2特徴量リスト154へ格納される。なお、閾値Th1は、特徴量重要度累積値に限定されるものではなく、特徴数に対する比率としてもよい。
図4は、特徴選択部150で行われる処理の一例を示すフローチャートである。この処理は、経時特徴量生成部110から正例特徴量118と負例特徴量121及び第1特徴量リスト122が出力されてから開始される(401)。
まず、特徴量重要度算出部151は、経時特徴量生成部110から正例特徴量118と負例特徴量121及び第1特徴量リスト122を取得する(402)。特徴量重要度算出部151は、第1特徴量リスト122に記載されている正例特徴量118及び負例特徴量121の重要度を算出する(403)。
特徴量重要度算出部151は、上述したようにLightGBMでとSHAPを組み合わせて、LightGBMで生成した予測モデルに第1特徴量リスト122の特徴量を与えて目的事象の有無を予測し、SHAPは各特徴量が予測結果に対してどの程度影響を与えたかを重要度として算出する。そして、特徴量重要度算出部151は、算出された重要度と特徴量の識別子を特徴量重要度152へ格納する。
次に、特徴量累積閾値判定部153の処理に遷移する(404)。特徴量累積閾値判定部153は、特徴量重要度152と第1特徴量リスト122を取得して、特徴量重要度152の値の降順で第1特徴量リスト122をソートする(405)。
次に、特徴量累積閾値判定部153は、ステップ406〜409で、第1特徴量リスト122の先頭から順に特徴量重要度152の値を累積して、累積値が所定の閾値Th1に達するまでループ処理を実行する。
特徴量累積閾値判定部153は、重要度の大きい順にソート済みの第1特徴量リスト122の先頭から特徴量重要度152の重要度を取得して、順次累積する(407)。
特徴量累積閾値判定部153は、累積値が所定の閾値Th1に達したか否かを判定して(408)、閾値Th1に達していればループ処理を終了してステップ410へ進み、達していなければステップ409に進んでループ処理を繰り返す。
次に、特徴量累積閾値判定部153は、第1特徴量リスト122の特徴量の数に残り(未処理)があるか否かを判定し(410)、残りがある場合にはステップ411へ進み、残りがない場合にはステップ412へ進む。なお、第1特徴量リスト122の特徴量の数の残りは、図3に示した削除する特徴量を示し、特徴量重要度累積値が閾値Th1を超える部分に相当する。
ステップ411では、特徴量累積閾値判定部153が、第1特徴量リスト122の閾値Th1を超える部分の特徴量を削除して、第1特徴量リスト122を更新する。そして、特徴量累積閾値判定部153は、ステップ403に戻って上記処理を繰り返す。
一方、ステップ412では、特徴量重要度累積値が閾値Th1以下となって第1特徴量リスト122の特徴量の数が削減されたので、第1特徴量リスト122の内容(特徴量の識別子)を第2特徴量リスト154として出力する。
上記処理によって、特徴選択部150は、特徴量重要度累積値が閾値Th1を超える部分の特徴量が削減され、かつ、重要度の大きい特徴量で構成された第2特徴量リスト154を生成して、機械学習部160へ入力することが可能となる。
次に、図5A、図5Bを用いて、経時特徴量生成部110の負例基準日決定部119の処理について説明する。
図5Aは、経時特徴量生成部110の負例基準日決定部119で行われる基準日のスライディング処理の一例を示す図である。図5Bは、負例基準日決定部119で行われる負例基準日の決定処理の一例を示す図である。
図5Aは、負例時系列データ113として、観測値(例えば、残高)と時間(又は日付)の関係を示す。
負例基準日決定部119は、予め設定された日付(例えば、正例基準日115)を最初の基準日1として設定して、基準日1から過去1ヶ月、3ヶ月、6ヶ月、12ヶ月などの予め設定された複数の統計期間を設定する。なお、基準日1を決定する条件は、複数の正例基準日115からユーザが特徴量算出方法ユーザ設定103で指定してもよいし、その他の条件を用いてもよい。
そして、負例基準日決定部119は、予め設定されたスライド幅(所定の日付間隔)を基準日1に加えた(又は減算した)日付を基準日2として設定し、1ヶ月〜12ヶ月などの予め設定された複数の統計期間を設定する。
同様に、負例基準日決定部119は、所定のスライド幅でずらした基準日3〜基準日Nを設定し、上記と同様に複数の統計期間を設定する。負例基準日決定部119は、負例時系列データ113の全期間を上記統計期間で網羅するように基準日1から基準日Nを設定する。
図示の例では、過去の基準日1から現在へ向けて基準日1〜基準日Nをずらした例を示したが、これに限定されるものではなく、逆方向であってもよい。また、負例基準日決定部119は、複数の統計期間と基準日で一つの負例時系列データの全期間をカバーするように、基準日1〜基準日Nと複数の統計期間を設定する
次に、負例基準日決定部119は、基準日1〜基準日Nの各統計期間で負例時系列データ113の特徴量を特徴量算出部116に算出させて、各基準日毎に複数の統計期間の特徴量をクラスタリングして負例の基準日別統計量を算出して基準日1〜基準日Nに対応付ける。
また、負例基準日決定部119は、正例基準日115のそれぞれについて予め設定された複数の統計期間を設定して、正例時系列データ112の特徴量を特徴量算出部116に算出させ、各正例基準日115毎に各統計期間の特徴量を集計した正例の基準日別特徴量を算出させる。
負例基準日決定部119は、負例の基準日別特徴量と、正例の基準日別特徴量を図5Bに示す特徴空間602に配置して、負例の基準日別特徴量と正例の基準日別特徴量(図中基準日又は正例)の幾何学的距離を算出する。なお、図示の例では、特徴量Aと特徴量Bの2次元空間を示すが、特徴量の次元数に応じた特徴空間を設定すればよい。
そして、負例基準日決定部119は、負例の基準日1〜基準日Nに対応する基準日別特徴量のうち、正例の基準日別特徴量に最も距離が近い負例の基準日別特徴量を選択し、当該負例の基準日別特徴量に対応する基準日を負例基準日120として決定する。
図示の特徴空間602では、正例2(正例の基準日2)に対応する正例の基準日別特徴量と、基準日5に対応する負例の基準日別特徴量の幾何学的距離が最も近いため、基準日5が負例基準日120として決定される例を示す。
図6は、負例基準日決定部119の構成の一例を示す図である。負例基準日決定部119は、負例の基準日候補として基準日1から基準日Nまでの複数の基準日を生成する基準日スライド部802と、基準日毎の特徴量から基準日別特徴量804を算出して、正例の基準日別特徴量に最も近い負例の基準日別特徴量804の基準日を負例基準日120として決定する特徴量空間最短距離探索部810と、を含む。
負例及び正例の基準日の統計期間は、例えば、上述の1ヶ月、3ヶ月、6ヶ月、12ヶ月など所定の複数の統計期間とする。
負例基準日決定部119は、負例時系列データ113から特徴量算出方法ユーザ設定103で指定された負例時系列データ113から一つの負例時系列データ801を取得して、上述した所定の条件から基準日1を決定して、基準日スライド部802へ基準日1を入力する。
基準日スライド部802は、予め設定されたスライド幅で所定数の基準日2〜基準日Nを生成する。負例基準日決定部119は、生成された基準日1〜基準日Nについて、それぞれ予め設定された複数の統計期間を設定し、負例の基準日毎に各統計期間の負例時系列データ801を特徴量算出部116へ入力して負例の特徴量を算出させる。
負例基準日決定部119は、特徴量算出部116が算出した基準日1〜基準日Nの負例の特徴量を基準日別特徴量804として受け付けて、特徴量空間最短距離探索部810へ入力する。
特徴量空間最短距離探索部810は、正例特徴量118と目的事象発生時刻データ101を入力として負例の基準日別特徴量804と同様に、複数の統計期間で正例の基準日別特徴量を特徴量算出部116に算出させる。特徴量空間最短距離探索部810は、負例の基準日別特徴量804と、上記算出した正例の基準日別特徴量それぞれ特徴空間602(図5B参照)に配置し、各基準日別特徴量間の幾何学的距離を算出する。
そして、特徴量空間最短距離探索部810は、負例の基準日1〜基準日N(805)に対応する基準日別特徴量のうち、正例の基準日別特徴量に最も距離が近い負例の基準日別特徴量(負例特徴量806)を選択し、当該基準日別特徴量804に対応する基準日を負例基準日120として決定する。
また、特徴量空間最短距離探索部810は、処理対象の負例時系列データ801のそれぞれについて、負例基準日120と負例特徴量121を出力することができる。
図7は、負例基準日決定部119で行われる処理の一例を示すフローチャートである。この処理は、負例基準日決定部119が、負例時系列データ113と、正例基準日115及び正例特徴量118を受け付けてから開始される。
負例基準日決定部119は、負例時系列データ113の中から一つを選択して負例時系列データ801とし、正例基準日115を最初の基準日1として決定する(901)。そして、負例基準日決定部119は、ステップ902〜905のループで、所定のスライド幅ずつ基準日をずらして負例の特徴量を特徴量算出部116に算出させる。
負例基準日決定部119は、ステップ903で、現在の基準日Nと、予め設定された複数の統計期間と、負例時系列データ801を特徴量算出部116へ入力して、負例特徴量を算出させる。
負例基準日決定部119は、ステップ904で、複数の統計期間毎の負例特徴量を特徴量算出部116から取得して、所定の統計処理(例えば、平均)を行って、基準日別特徴量804として記憶する。
次に、負例基準日決定部119は、ステップ902へ戻って(905)、基準日Nをスライド幅だけずらして負例時系列データ801の終端まで上記処理を繰り返し、基準日1〜基準日Nの基準日別特徴量804をそれぞれ算出する。
負例時系列データ801の終端に達すると、負例基準日決定部119はステップ902〜905のループを終了してステップ906に進む。
ステップ906では、負例基準日決定部119の特徴量空間最短距離探索部810が、上述したように、正例基準日115から所定の複数の統計期間で正例時系列データ112の特徴量を特徴量算出部116に算出させ、各正例基準日115毎に統計期間の特徴量をクラスタリングして正例の基準日別特徴量とする。
そして、特徴量空間最短距離探索部810、負例の基準日別特徴量804と正例の基準日別特徴量を特徴量空間に配置して、各基準日別特徴量間の幾何学的距離を算出する。そして、特徴量空間最短距離探索部810は、正例基準日115の基準日別特徴量との距離が最も小さい負例の基準日別特徴量に対応する基準日を負例基準日120として決定して出力する(907)。
上記処理によって、経時特徴量生成部110は、負例時系列データ113から基準日Nをずらして複数の負例の基準日別特徴量を算出し、正例時系列データ112の基準日別特徴量に幾何学的距離が近いことを指標として特徴量を算出する起点となる負例基準日120を決定する。
これにより、経時データ分析装置1は、目的事象が発生していない負例時系列データ113において、説明変数の組み合わせが類似する正例時系列データ112と負例時系列データ113を機械学習部160で学習させることで、高精度なリスク推定モデルを提供することが可能となる。
以上のように、実施例1の経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定し、特徴量の重要度が高い方から累積値を算出して重要度の低い特徴量から徐々に排除する処理を繰り返すことで、重要な特徴量を選別して、機械学習部160の学習データを生成する。
これにより、機械学習部160に学習させる特徴量の数を低減しながらも重要度の高い特徴量(第2特徴量リスト154)と、正例特徴量118の正例基準日別特徴量に近い指標を有する負例基準日120によって、計算負荷を抑制しながら精度の高い機械学習モデルを生成させることができる。本実施例の経時データ分析装置1では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
図8は、本発明の実施例2を示し、経時データ分析装置1で行われる処理の一例を示す図である。前記実施例1では特徴選択部150の内部で重要度を利用する例を示したが、実施例2では、特徴選択部150が算出した特徴量の重要度を経時特徴量生成部110へフィードバックさせて、経時特徴量生成部110が特徴量の重要度に基づいて特徴量算出定義117の更新を通知する例を示す。
実施例2の経時データ分析装置1は、前記実施例1の構成に対して、経時特徴量生成部110に特徴量算出定義更新部201を加え、特徴選択部150に最小特徴数判定部202と前回出力特徴量リスト203を加えて、特徴量重要度算出部151が算出した特徴量重要度152を経時特徴量生成部110の特徴量算出定義更新部201へフィードバックするもので、その他の構成は前記実施例1と同様である。
特徴量算出定義更新部201は、各統計期間の重要度の大きさに偏りがある場合、予め設定された統計期間の変更を通知する。例えば、統計期間が1ヶ月と3ヶ月の重要度が、6ヶ月や12ヶ月の重要度よりも相対的に大きい場合には、新たに「2ヶ月」と「4ヶ月」を統計期間に追加するように通知する。
換言すれば、特徴量算出定義更新部201は、統計期間の数や間隔を変更することで、より大きな重要度を検出することを可能にする。なお、特徴量算出定義更新部201は、各統計期間の重要度を出力装置6に表示して、統計期間の数や間隔の変更を促す通知を出力してもよいし、あるいは、重要度の偏りを検出した場合に、経時データ分析装置1の利用者に統計期間の見直しを通知してもよい。
あるいは、特徴量算出定義更新部201が、複数の統計期間で重要度の偏りを検出すると、自動的に統計期間を変更するように特徴量算出定義117を更新してもよい。
特徴選択部150の最小特徴数判定部202は、特徴量累積閾値判定部153から第2特徴量リスト154が出力されると、前回出力特徴量リスト203に格納された前回の第2特徴量リスト154の特徴量の数(レコード数)と今回の第2特徴量リスト154の特徴量の数(レコード数)を比較する。
今回の第2特徴量リスト154の特徴量の数の方が小さい場合には、最小特徴数判定部202は、まだ、特徴量の数を低減する余地があると判定して、特徴量算出定義更新部201に特徴量算出定義117を更新して、新たな特徴量を算出させるよう指令する。また、最小特徴数判定部202は、最新の第2特徴量リスト154を前回出力特徴量リスト203へ格納しておく。
図9は、経時データ分析装置1で行われる重要度のフィードバック処理の一例を示す図である。
図示の例では、経時特徴量生成部110の特徴量算出定義117に、所定の統計期間として1ヶ月、3ヶ月、6ヶ月、12ヶ月の4つの期間が予め設定されている。また、時系列データ102の特徴量を算出する条件として、統計量として平均値が設定されている例を示す。
特徴量算出部116は、特徴量算出定義117の統計期間に従って、正例時系列データ112と負例時系列データ113を受け付けて、正例特徴量118と負例特徴量121を特徴量算出部116に算出させ、第1特徴量リスト122と統計期間1171を特徴選択部150へ出力する。
特徴選択部150の特徴量重要度算出部151は、正例特徴量118と負例特徴量121と第1特徴量リスト122及び統計期間1171を受け付けると、各特徴量の重要度を算出して特徴量重要度152として出力する。
特徴量重要度152は、一つの基準日について複数の統計期間の重要度が格納されている。図示の例では、1ヶ月平均の重要度が0.4、3ヶ月平均の重要度が0.5で、6ヶ月平均及び12ヶ月平均の重要度が0.1となっている。
特徴量重要度算出部151から特徴量重要度152のフィードバックを受け付けた特徴量算出定義更新部201は、1ヶ月平均と3ヶ月平均の重要度が高くなっていることを検出する。
特徴量算出定義更新部201は、重要度の値が高くなっている統計期間の近傍を細分化し、1ヶ月平均と3ヶ月平均の間の2ヶ月平均と、3ヶ月平均の1ヶ月後の4ヶ月平均を特徴量算出定義117に追加して更新する。
特徴量算出部116は、更新された特徴量算出定義117に基づいて再度正例特徴量118と負例特徴量121及び第1特徴量リスト122を算出して、特徴選択部150に出力する。
図10は、経時特徴量生成部110と特徴選択部150で行われる処理の一例を示すフローチャートである。この処理は、経時特徴量生成部110が正例時系列データ112と負例時系列データ113と目的事象発生時刻データ101と特徴量算出定義117を受け付けて開始される(501)。
経時特徴量生成部110は、入力された正例時系列データ112と負例時系列データ113と目的事象発生時刻データ101及び特徴量算出定義117から、正例特徴量118と負例特徴量121及び第1特徴量リスト122を生成する(502)。
特徴選択部150の特徴量重要度算出部151は、正例特徴量118と負例特徴量121から各特徴量の重要度を算出して特徴量重要度152として出力する。次に、特徴量累積閾値判定部153は、第1特徴量リスト122を重要度の値の大きい順にソートして、重要度が上述の閾値Th1に達するまでの特徴量を選択して、第2特徴量リスト154を生成して出力する(503)。
最小特徴数判定部202は、前回出力特徴量リスト203に格納された前回の第2特徴量リスト154の特徴量の数が、新たな第2特徴量リスト154の特徴量の数よりも大きいか否かを判定する(504)。
最小特徴数判定部202は、前回出力特徴量リスト203の特徴量の数の方が大きい場合には、まだ、特徴量の数を低減する余地があると判定してステップ505に進み、そうでない場合には、ステップ506へ進む。
ステップ505では、特徴量算出定義更新部201が、特徴量重要度152に基づいて、上述したように特徴量算出定義117を更新し、ステップ502へ戻って新たな特徴量を算出し、上記処理を繰り返す。
一方、ステップ506では、最小特徴数判定部202が、前回出力特徴量リスト203の第2特徴量リスト154を結果として出力し、処理を終了する。
以上のように、実施例2の経時データ分析装置1では、特徴量重要度算出部151で算出した重要度を、経時特徴量生成部110の特徴量算出定義更新部201へフィードバックすることで、新たな特徴量を算出するために特徴量算出定義117の更新を示唆することが可能となる。
なお、上記では、特徴量算出定義更新部201が統計期間を変更する例を示したが、これに限定されるものではなく、統計量の算出方法を変更してもよい。
図11は、本発明の実施例3を示し、負例基準日決定部119で行われる処理の一例を示す図である。実施例3では、負例基準日決定部119が、目的事象(正例基準日115)の発生頻度に応じて選択確率を算出し、選択確率に基づいて負例基準日120を決定する例を示す。
本実施例では、負例基準日決定部119が、負例基準日選択部1102と正例基準日頻度分布1103を含む例を示す。
負例基準日決定部119は、正例基準日決定部114が出力した正例基準日115を受け付けて頻度分布を算出し、正例基準日頻度分布1103を算出する。負例基準日選択部1102は、負例時系列データ113から選択した一つの負例時系列データ1101を入力として、正例基準日115の発生頻度(正例基準日頻度分布1103)に応じて選択確率を算出し、選択確率に基づいて負例時系列データ1101の負例基準日1104を決定する。なお、選択確率は、2項分布やポアソン分布などの周知の手法で近似してもよい。
負例基準日決定部119は、決定された負例基準日1104をストレージ装置4の負例基準日120に書き込む。負例基準日決定部119は、処理対象の負例時系列データ113についてそれぞれ負例基準日1104を算出して負例基準日120に格納する。
上記処理によって、経時データ分析装置1は、正例基準日115の発生頻度と同一の確率分布で、負例時系列データ113の負例基準日120を決定することが可能となり、機械学習部160では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
図12〜図14は、本発明の実施例4を示す。本実施例では、目的事象の発生に関連した事象(以下、重要事象)から負例基準日120を決定する例を示す。本実施例の負例基準日決定部119は、重要事象の発生日から目的事象が発生した正例基準日115までの期間を予兆期間とし、正例時系列データ112のそれぞれについて予兆期間を算出し、算出された予兆期間の頻度分布などの統計処理の結果に基づいて負例基準日120を決定する。
本実施例の重要事象としては、目的事象がデフォルトの場合、例えば、ローン契約実行日や、高額の借入実行日、当座貸越が所定の金額を超過した日など、予め設定された事象である。
経時データ分析装置1は、これらの重要事象が発生した日から正例基準日115までの期間を予兆期間として算出し、複数の正例時系列データ112のそれぞれについて予兆期間を算出し、これらの正例の予兆期間の頻度分布を算出する。そして、経時データ分析装置1は、正例の予兆期間の頻度分布に基づいて、負例時系列データ113の負例基準日120と負例の予兆期間を算出する例を示す。
図12は、正例時系列データ112から算出した特徴量(図中重要特徴量)と予兆期間の関係を示すグラフである。正例の時系列データ701は、正例時系列データ112から選択したデータの特徴量と時間の関係を示すグラフである。特徴量としては、例えば、借入残高や当座貸越残高の統計量(例えば、平均や、最大、最小、分散、標準偏差、最大−最小、変動係数等)を用いる例を示す。
図示の例では、上述のように目的事象が発生した日を正例基準日115とし、目的事象に関連する重要事象が発生した日を重要事象発生日として、正例基準日115から重要事象発生日までの期間を予兆期間とする。さらに、本実施例では、正例基準日115から過去の所定期間を統計期間として設定する。
図示の例では、特徴量が閾値Th3を超えた日を、重要事象発生日とする例を示すが、上述のように、ローンの実行日や借入日など日付や時刻が明確な重要事象の発生データが存在する場合には、当該重要事象の発生データを重要事象発生日としてもよい。閾値Th3は、例えば、特徴量の最大値の90%など、予め設定した値や比率を用いることができる。
図13は、負例基準日決定部119で行われる処理の一例を示す図である。実施例4の負例基準日決定部119は、重要特徴量閾値超過探索部1002と、予兆期間決定部1004と、加算部1007を含む。実施例4の経時データ分析装置1のその他の構成は、前記実施例1又は前記実施例2と同様である。
重要特徴量閾値超過探索部1002は、負例時系列データ113から受け付けたデータを負例時系列データ1001として、特徴量算出定義117で設定された重要事象を判定する項目を参照して、当該項目について負例の特徴量を特徴量算出部116に算出させる。
重要特徴量閾値超過探索部1002は、特徴量算出部116が算出した負例の特徴量を負例時系列データ1001の時系列の過去から現在へ向けて所定の閾値Th4と比較し、負例の特徴量が当該閾値Th4を初めて超えた日を重要事象発生日1003として出力する。
予兆期間決定部1004は、正例特徴量118と正例基準日115を入力して、予め設定された閾値Th3と比較を行って、正例の重要事象発生日を抽出し、正例基準日115と重要事象発生日の期間を予兆期間として算出する。
そして、予兆期間決定部1004は、複数の正例特徴量118のそれぞれについて予兆期間を算出し、さらに予兆期間の頻度分布を算出して、正例予兆期間頻度分布1005として保持する。
そして、予兆期間決定部1004は、正例予兆期間頻度分布1005の正例の予兆期間の頻度分布に合うように、予兆期間1006を確率的に決定し、加算部1007へ出力する。
加算部1007は、負例の重要事象発生日1003に予兆期間決定部1004からの予兆期間1006を加算して負例基準日1008を生成する。加算部1007は、入力された負例時系列データ1001のそれぞれについて負例基準日1008を算出して負例基準日120に格納する。
なお、予兆期間決定部1004は、正例において重要事象の発生日から目的事象の発生日までの期間の逆数を新たな目的関数としてもよい。
図14は、負例基準日決定部119で行われる処理の変形例を示すフローチャートである。図示の例では、経時特徴量生成部110が、前記実施例2の図8で示したように、特徴選択部150から特徴量重要度152のフィードバックを受け付ける場合を示すが、これに限定されるものではない。
負例基準日決定部119は、指定された正例時系列データ112の正例特徴量118を受け付けて処理を開始する(S1301)。特徴選択部150からフィードバックされた特徴量重要度152のうち、所定の閾値Th5を超える特徴量重要度152があるか否かを判定する(S1302)。特徴量重要度152のうち所定の閾値Th5を超える特徴量重要度152が存在する場合にはステップS1303へ進み、そうでない場合には処理を終了する。
ステップS1303では、負例基準日決定部119は受け付けた特徴量について、図12で示したように、現在の重要特徴量について閾値Th3を決定する。閾値Th3は、図12で示したように、重要特徴量の最大値に対する所定の比率で設定することができる。
ステップS1304〜S1307では、負例基準日決定部119が受け付けた正例時系列データ112のそれぞれについて正例特徴量118を重要特徴量として扱って処理を繰り返す。
ステップS1305で、負例基準日決定部119が正例特徴量118から閾値Th3を超える日が存在する場合には、重要事象発生日として取得する。負例基準日決定部119は、重要事象発生日を取得した場合には正例基準日115を取得して、正例基準日115から重要事象発生日までの期間を予兆期間として算出する(1306)。
負例基準日決定部119は、受け付けた正例時系列データ112の全てについてステップS1304〜S1307の処理が完了すると、ステップS1308で、正例の予兆期間の頻度分布を算出し、正例予兆期間頻度分布1005を生成する。
ステップS1309〜S1313では、負例基準日決定部119が受け付けた負例時系列データ113のそれぞれについて処理を繰り返す。ステップS1310では、負例基準日決定部119が負例特徴量121を一つ選択して、重要特徴量(借入残高や当座貸越残高の統計量)が所定の閾値Th3を超えた日を重要事象発生日として取得する。
ステップS1311では、負例基準日決定部119が正例予兆期間頻度分布1005を参照して、正例の予兆期間の頻度分布に合うように負例での予兆期間を決定する。即ち、予兆期間を確率変数として、前記頻度分布を確率分布と見做し、該分布に従って個々の負例の予兆期間を確率的に選択する。ステップS1312では、負例基準日決定部119が重要事象発生日に負例の予兆期間を加算して負例基準日120を算出する。
負例基準日決定部119は、受け付けた負例時系列データ113の全てについてステップS1309〜S1313の繰り返し処理を実行する。
上記処理によって、経時データ分析装置1は、正例の特徴量に近いことを指標として、負例時系列データ113の負例基準日120を決定することが可能となり、機械学習部160では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
<結び>
以上のように、上記各実施例は、以下のような構成とすることができる。
(1)プロセッサ2とメモリ3を有する計算機(経時データ分析装置1)が、時系列データ(102)を受け付けて目的事象の発生を予測する機械学習部(160)への入力データとなる特徴量を生成する特徴量生成方法であって、前記計算機が、値とタイムスタンプを含む複数の時系列データ(102)を受け付ける時系列データ(102)入力ステップと、前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データ(目的事象発生時刻データ101)を受け付ける目的事象発生データ入力ステップと、前記計算機が、前記時系列データ(102)の特徴量を算出する内容を定義した特徴量算出定義(117)を受け付ける特徴量算出定義入力ステップと、前記計算機が、目的事象発生データ(101)を参照して前記時系列データ(102)を、正例時系列データ(112)と負例時系列データ(113)に分割する分割ステップと、前記計算機が、前記正例時系列データ(112)における基準日である、正例基準日(115)を決定する正例基準日決定ステップと、前記計算機が、前記正例時系列データ(112)と前記正例基準日(115)の組み合わせから、前記特徴量算出定義(117)に基づいて正例特徴量(118)を算出する正例特徴量算出ステップと、前記計算機が、前記正例基準日(115)、前記正例特徴量(118)及び前記負例時系列データ(113)を入力として、負例基準日(120)を決定する負例基準日決定ステップと、前記計算機が、前記負例時系列データ(113)と前記負例基準日(120)の組み合わせから、前記特徴量算出定義(117)に基づいて負例特徴量(121)を算出する負例特徴量算出ステップと、を含むことを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定することで、目的事象が発生していない負例時系列データ113における基準日を決定することが可能となる。これにより、経時データ分析装置1は、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
(2)上記(1)に記載の特徴量生成方法であって、前記計算機が、前記正例特徴量(118)と負例特徴量(121)のリストを第1特徴量リスト(122)として生成し、前記正例特徴量(118)及び前記負例特徴量(121)と第1特徴量リスト(122)を出力する経時特徴量生成ステップと、前記計算機が、前記第1特徴量リスト(122)に記載されている正例特徴量(118)と負例特徴量(121)の特徴量重要度(152)を算出する特徴量重要度算出ステップと、前記計算機が、前記特徴量重要度(152)の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの正例特徴量(118)及び負例特徴量(121)を学習対象の特徴量として第2特徴量リスト(154)に格納する特徴量累積閾値判定ステップと、をさらに含むことを特徴とする特徴量生成方法。
上記構成により、特徴量重要度の値が高い方から累積値を算出して重要度の低い特徴量から徐々に排除する処理を繰り返すことで、重要な特徴量を選別することで、機械学習部160に学習させる特徴量の数を低減しながらも重要度の高い特徴量(第2特徴量リスト154)で学習を実施することで、高精度な予測するモデルを生成することが可能となる。
(3)上記(1)に記載の特徴量生成方法であって、前記特徴量累積閾値判定ステップは、前記累積値が所定の閾値Th1に達した時点で、第1特徴量リスト(122)に未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出ステップで特徴量重要度(152)の算出を行って、前記特徴量重要度(152)の累積値が閾値Th1に達した時点で第1特徴量リスト(122)に未処理のデータが無くなるまで前記特徴量重要度算出ステップと、前記特徴量累積閾値判定部ステップによる絞り込みを繰り返すことを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、重要な特徴量を選別することで、機械学習部160に学習させる特徴量の数を低減しながらも重要度の高い特徴量(第2特徴量リスト154)で学習を実施することで、高精度な予測するモデルを生成することが可能となる。
(4)上記(2)に記載の特徴量生成方法であって、前記計算機が、前記算出された前記特徴量重要度(152)を入力して、前記特徴量重要度(152)の値に応じて前記特徴量算出定義(117)を変更する特徴量算出更新ステップを、さらに含むことを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1では、特徴量重要度算出部151で算出した重要度を、経時特徴量生成部110の特徴量算出定義更新部201へフィードバックすることで、新たな特徴量を算出するために特徴量算出定義117の更新を示唆することが可能となる。
(5)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定する基準スライドステップと、前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定する統計期間設定ステップと、前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データ(113)の特徴量を算出して各基準日毎に負例基準日別特徴量(804)を算出する負例基準日別特徴量算出ステップと、前記正例基準日(115)のそれぞれについて前記複数の各統計期間で正例時系列データ(112)の特徴量を算出して各正例基準日(115)毎に正例基準日別特徴量を算出する正例基準日別特徴量算出ステップと、前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日(120)として決定する決定ステップと、を含むことを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定することが可能となる。これにより、経時データ分析装置1は、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
(6)上記(5)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、前記複数の統計期間が負例時系列データ(113)の全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、負例時系列データ113から正例特徴量118の基準日別特徴量に近いことを指標として負例基準日決定部119を決定することが可能となる。これにより、経時データ分析装置1は、発生頻度の低い目的事象の発生を高
(7)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、前記正例時系列データ(112)のそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日(1003)として取得して、前記重要事象発生日(1003)から前記正例基準日(115)までの期間を予兆期間とし、前記正例時系列データ(112)のそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データ(113)の負例基準日(120)を決定することを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、正例特徴量118の重要事象発生日から目的事象発生時刻までの予兆期間を算出し、目的事象の発生に関連する重要事象発生日を負例時系列データ113に設定して、予兆期間を加算することで負例基準日120を決定することが可能となる。
(8)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、 前記正例基準日(115)の頻度分布(1005)を算出し、前記頻度分布(1005)と同一の確率分布で、負例時系列データ(113)のそれぞれについて負例基準日(120)を決定することを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、正例基準日115の発生頻度と同一の確率分布で、負例時系列データ113の負例基準日120を決定することが可能となり、機械学習部160では、発生頻度の低い目的事象の発生を高精度に予測するモデルを生成することが可能となる。
(9)上記(5)に記載の特徴量生成方法であって、前記計算機が、前記特徴量重要度(152)を受け付けて前記特徴量算出定義(117)を更新する特徴量算出定義(117)更新ステップを、さらに含み、前記特徴量重要度(152)算出ステップは、前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度(152)を算出し、前記特徴量算出定義(117)更新ステップは、前記複数の異なる統計期間毎の前記特徴量重要度(152)を受け付けて、前記特徴量重要度(152)が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知する。
上記構成により、経時データ分析装置1は、特徴量重要度算出部151で算出した重要度を、経時特徴量生成部110の特徴量算出定義更新部201へフィードバックすることで、新たな特徴量を算出するために特徴量算出定義117の更新を示唆することが可能となる。
(10)上記(7)に記載の特徴量生成手法であって、前記負例基準日決定ステップは、前記正例時系列データ(112)のそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日(1003)として取得して、前記重要事象発生日(1003)から前記正例基準日(115)までの期間を予兆期間として算出し、前記正例時系列データ(112)のそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布(1005)から予兆期間を決定するステップと、前記負例時系列データ(113)のそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度(152)を算出し、前記特徴量重要度(152)を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量(121)を算出するステップと、前記負例時系列データ(113)の時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日(1003)として算出するステップと、前記正例予兆期間頻度分布(1005)から算出した予兆期間を前記重要事象発生日(1003)に加算して負例基準日(120)を算出するステップと、を含むことを特徴とする特徴量生成方法。
上記構成により、経時データ分析装置1は、正例特徴量118の重要事象発生日から目的事象発生時刻までの予兆期間を算出し、目的事象の発生に関連する重要事象発生日を負例特徴量121から算出し、負例の重要事象発生日に予兆期間を加算することで負例基準日120を決定することが可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1 経時データ分析装置
2 プロセッサ
3 メモリ
4 ストレージ装置
101 目的事象発生時刻データ
102 時系列データ
103 特徴量算出方法ユーザ設定
110 経時特徴量生成部
111 時系列データ分割部
112 正例時系列データ
113 負例時系列データ
114 正例基準日決定部
115 正例基準日
116 特徴量算出部
117 特徴量算出定義
118 正例特徴量
119 負例基準日決定部
120 負例基準日
121 負例特徴量
122 第1特徴量リスト
150 特徴選択部
151 特徴量重要度算出部
152 特徴量重要度
153 特徴量累積閾値判定部
154 第2特徴量リスト
160 機械学習部

Claims (20)

  1. プロセッサとメモリを有する計算機が、時系列データを受け付けて目的事象の発生を予測する機械学習部への入力データとなる特徴量を生成する特徴量生成方法であって、
    前記計算機が、値とタイムスタンプを含む複数の時系列データを受け付ける時系列データ入力ステップと、
    前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データを受け付ける目的事象発生データ入力ステップと、
    前記計算機が、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義を受け付ける特徴量算出定義入力ステップと、
    前記計算機が、目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する分割ステップと、
    前記計算機が、前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定ステップと、
    前記計算機が、前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する正例特徴量算出ステップと、
    前記計算機が、前記正例基準日、前記正例特徴量、及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定ステップと、
    前記計算機が、前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出する負例特徴量算出ステップと、
    を含むことを特徴とする特徴量生成方法。
  2. 請求項1に記載の特徴量生成方法であって、
    前記計算機が、前記正例特徴量と負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力する経時特徴量生成ステップと、
    前記計算機が、前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出ステップと、
    前記計算機が、前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの正例特徴量及び負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定ステップと、
    をさらに含むことを特徴とする特徴量生成方法。
  3. 請求項2に記載の特徴量生成方法であって、
    前記特徴量累積閾値判定ステップは、
    前記累積値が所定の閾値Th1に達した時点で、第1特徴量リストに未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出ステップで特徴量重要度の算出を行って、前記特徴量重要度の累積値が閾値Th1に達した時点で第1特徴量リストに未処理のデータが無くなるまで前記特徴量重要度算出ステップと、前記特徴量累積閾値判定ステップによる絞り込みを繰り返すことを特徴とする特徴量生成方法。
  4. 請求項2に記載の特徴量生成方法であって、
    前記計算機が、前記算出された前記特徴量重要度を入力して、前記特徴量重要度の値に応じて前記特徴量算出定義を変更する特徴量算出更新ステップを、さらに含むことを特徴とする特徴量生成方法。
  5. 請求項1に記載の特徴量生成方法であって、
    前記負例基準日決定ステップは、
    第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定する基準スライドステップと、
    前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定する統計期間設定ステップと、
    前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データの特徴量を算出して各基準日毎に負例基準日別特徴量を算出する負例基準日別特徴量算出ステップと、
    前記正例基準日のそれぞれについて前記複数の各統計期間で正例時系列データの特徴量を算出して各正例基準日毎に正例基準日別特徴量を算出する正例基準日別特徴量算出ステップと、
    前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日として決定する決定ステップと、を含むことを特徴とする特徴量生成方法。
  6. 請求項5に記載の特徴量生成方法であって、
    前記負例基準日決定ステップは、
    前記複数の統計期間が負例時系列データの全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成方法。
  7. 請求項1に記載の特徴量生成方法であって、
    前記負例基準日決定ステップは、
    前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間とし、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データの負例基準日を決定することを特徴とする特徴量生成方法。
  8. 請求項1に記載の特徴量生成方法であって、
    前記負例基準日決定ステップは、
    前記正例基準日の頻度分布を算出し、前記頻度分布と同一の確率分布で、負例時系列データのそれぞれについて負例基準日を決定することを特徴とする特徴量生成方法。
  9. 請求項5に記載の特徴量生成方法であって、
    前記計算機が、前記特徴量重要度を受け付けて前記特徴量算出定義を更新する特徴量算出定義更新ステップを、さらに含み、
    前記特徴量重要度算出ステップは、
    前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度を算出し、
    前記特徴量算出定義更新ステップは、
    前記複数の異なる統計期間毎の前記特徴量重要度を受け付けて、前記特徴量重要度が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知することを特徴とする特徴量生成方法。
  10. 請求項7に記載の特徴量生成手法であって、
    前記負例基準日決定ステップは、
    前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間として算出し、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布から予兆期間を決定するステップと、
    前記負例時系列データのそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度を算出し、前記特徴量重要度を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量を算出するステップと、
    前記負例時系列データの時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日として算出するステップと、
    前記正例予兆期間頻度分布から算出した予兆期間を前記重要事象発生日に加算して負例基準日を算出するステップと、
    を含むことを特徴とする特徴量生成方法。
  11. プロセッサとメモリを含んで、時系列データを受け付けて目的事象の発生を予測する機械学習部への入力データとなる特徴量を生成する特徴量生成装置であって、
    値とタイムスタンプを含む複数の時系列データと、前記目的事象が発生したタイムスタンプを含む目的事象発生データと、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義とを受け付けて、前記時系列データから正例特徴量と負例特徴量及び第1特徴量リストを出力する経時特徴量生成部と、
    前記正例特徴量と前記負例特徴量及び前記第1特徴量リストを受け付けて、学習対象の前記正例特徴量及び前記負例特徴量を指定する第2特徴量リストを生成する特徴選択部と、を有し、
    前記経時特徴量生成部は、
    目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する時系列データ分割部と、
    前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定部と、
    前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する特徴量算出部と、
    前記正例基準日、前記正例特徴量及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定部と、を有し、
    前記特徴量算出部は、
    前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出することを特徴とする特徴量生成装置。
  12. 請求項11に記載の特徴量生成装置であって、
    前記経時特徴量生成部は、
    前記正例特徴量と前記負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力し、
    前記特徴選択部150は、
    前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出部と、
    前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの前記正例特徴量及び前記負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定部と、
    をさらに有することを特徴とする特徴量生成装置。
  13. 請求項11に記載の特徴量生成装置であって、
    前記特徴量累積閾値判定部は、
    前記累積値が所定の閾値Th1に達した時点で、前記第1特徴量リストに未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出部で特徴量重要度の算出を行って、前記特徴量重要度の累積値が閾値Th1に達した時点で第1特徴量リストに未処理のデータが無くなるまで前記特徴量重要度算出部と前記特徴量累積閾値判定部による絞り込みを繰り返すことを特徴とする特徴量生成装置。
  14. 請求項12に記載の特徴量生成装置であって、
    前記算出された前記特徴量重要度を入力して、前記特徴量重要度の値に応じて前記特徴量算出定義を変更する特徴量算出定義更新部を、さらに有することを特徴とする特徴量生成装置。
  15. 請求項11に記載の特徴量生成装置であって、
    前記負例基準日決定部は、
    第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定し、前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定し、前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データの特徴量を算出して各基準日毎に負例基準日別特徴量を算出し、前記正例基準日のそれぞれについて前記複数の各統計期間で正例時系列データの特徴量を算出して各正例基準日毎に正例基準日別特徴量を算出し、前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日として決定することを特徴とする特徴量生成装置。
  16. 請求項15に記載の特徴量生成装置であって、
    前記負例基準日決定部は、
    前記複数の統計期間が前記負例時系列データの全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成装置。
  17. 請求項11に記載の特徴量生成装置であって、
    前記負例基準日決定部は、
    前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間とし、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データの負例基準日を決定することを特徴とする特徴量生成装置。
  18. 請求項11に記載の特徴量生成装置であって、
    前記負例基準日決定部は、
    前記正例基準日の頻度分布を算出し、前記頻度分布と同一の確率分布で、負例時系列データのそれぞれについて負例基準日を決定することを特徴とする特徴量生成装置。
  19. 請求項15に記載の特徴量生成装置であって、
    前記特徴量重要度を受け付けて前記特徴量算出定義を更新する特徴量算出定義更新部を、さらに有し、
    前記特徴量重要度算出部は、
    前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度を算出し、
    前記特徴量算出定義更新は、
    前記複数の異なる統計期間毎の前記特徴量重要度を受け付けて、前記特徴量重要度が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知することを特徴とする特徴量生成装置。
  20. 請求項17に記載の特徴量生成手法であって、
    前記負例基準日決定部は、
    前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間として算出し、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布から予兆期間を決定する予兆期間決定部と、
    前記負例時系列データのそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度を算出し、前記特徴量重要度を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量を算出し、前記負例時系列データの時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日として算出し、前記正例予兆期間頻度分布から算出した予兆期間を前記重要事象発生日に加算して負例基準日を算出するする重要特徴量探索部と、
    を有することを特徴とする特徴量生成装置。
JP2020095384A 2020-06-01 2020-06-01 特徴量生成方法及び特徴量生成装置 Active JP7481909B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020095384A JP7481909B2 (ja) 2020-06-01 2020-06-01 特徴量生成方法及び特徴量生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020095384A JP7481909B2 (ja) 2020-06-01 2020-06-01 特徴量生成方法及び特徴量生成装置

Publications (3)

Publication Number Publication Date
JP2021189833A true JP2021189833A (ja) 2021-12-13
JP2021189833A5 JP2021189833A5 (ja) 2023-02-10
JP7481909B2 JP7481909B2 (ja) 2024-05-13

Family

ID=78849612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020095384A Active JP7481909B2 (ja) 2020-06-01 2020-06-01 特徴量生成方法及び特徴量生成装置

Country Status (1)

Country Link
JP (1) JP7481909B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023095680A1 (ja) 2021-11-24 2023-06-01 株式会社レゾナック 予測装置、学習装置、予測方法、学習方法、予測プログラム及び学習プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5747190B2 (ja) 2010-03-02 2015-07-08 株式会社国際電気通信基礎技術研究所 ホームネットワーク管理システム
JP6338984B2 (ja) 2014-09-12 2018-06-06 株式会社東芝 行動分析装置、行動分析方法、及びプログラム
JP2019140861A (ja) 2018-02-15 2019-08-22 中電技術コンサルタント株式会社 電力データ処理システム及び電力データ処理システムを用いて電力データを処理する方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023095680A1 (ja) 2021-11-24 2023-06-01 株式会社レゾナック 予測装置、学習装置、予測方法、学習方法、予測プログラム及び学習プログラム

Also Published As

Publication number Publication date
JP7481909B2 (ja) 2024-05-13

Similar Documents

Publication Publication Date Title
US20170372232A1 (en) Data quality detection and compensation for machine learning
Kugiumtzis et al. Measures of analysis of time series (MATS): A MATLAB toolkit for computation of multiple measures on time series data bases
CN110503531A (zh) 时序感知的动态社交场景推荐方法
EP3299972A1 (en) Efficient query processing using histograms in a columnar database
KR102068715B1 (ko) 변수 중요도에 따른 가중치가 적용된 변수를 이용한 이상값 탐지 장치 및 방법
CN113723985A (zh) 销量预测模型的训练方法、装置及电子设备、存储介质
JP2020091756A (ja) 学習方法、学習プログラムおよび学習装置
JP7139932B2 (ja) 需要予測方法、需要予測プログラムおよび需要予測装置
Verma et al. Feature selection
JP6242540B1 (ja) データ変換システム及びデータ変換方法
CN104662564A (zh) 数据分析装置以及程序
JP2021189833A (ja) 特徴量生成方法及び特徴量生成装置
EP3923130B1 (en) Optimizing garbage collection based on survivor lifetime prediction
JP6154491B2 (ja) 計算機及びグラフデータ生成方法
CN103336800A (zh) 基于行为分析的指纹存储比对的方法
Li et al. iMiner: mining inventory data for intelligent management
JP2022067897A (ja) 情報処理方法、および情報処理プログラム
JP4711863B2 (ja) 系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置
JP7458302B2 (ja) 理解難易度算出装置及び理解難易度算出方法。
CN117539948B (zh) 基于深度神经网络的业务数据检索方法及装置
Vasumathi et al. A comparative study on traditional data mining and big data mining classification algorithms
US20230334282A1 (en) Data management system and data management method
US20230325692A1 (en) Search support device and search support method
Wei et al. Temporally Multi-Scale Sparse Self-Attention for Physical Activity Data Imputation
WO2021024882A1 (ja) 商品売上予測に用いる複数の商品情報を対応付ける判定サーバ及び判定方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240426

R150 Certificate of patent or registration of utility model

Ref document number: 7481909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150