JP2021189833A - 特徴量生成方法及び特徴量生成装置 - Google Patents
特徴量生成方法及び特徴量生成装置 Download PDFInfo
- Publication number
- JP2021189833A JP2021189833A JP2020095384A JP2020095384A JP2021189833A JP 2021189833 A JP2021189833 A JP 2021189833A JP 2020095384 A JP2020095384 A JP 2020095384A JP 2020095384 A JP2020095384 A JP 2020095384A JP 2021189833 A JP2021189833 A JP 2021189833A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- reference date
- series data
- feature
- negative example
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 76
- 238000004364 calculation method Methods 0.000 claims abstract description 151
- 238000010801 machine learning Methods 0.000 claims abstract description 40
- 230000001186 cumulative effect Effects 0.000 claims description 64
- 238000009826 distribution Methods 0.000 claims description 50
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 28
- 230000036962 time dependent Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 14
- 238000007405 data analysis Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
次に、負例基準日決定部119は、基準日1〜基準日Nの各統計期間で負例時系列データ113の特徴量を特徴量算出部116に算出させて、各基準日毎に複数の統計期間の特徴量をクラスタリングして負例の基準日別統計量を算出して基準日1〜基準日Nに対応付ける。
以上のように、上記各実施例は、以下のような構成とすることができる。
(7)上記(1)に記載の特徴量生成方法であって、前記負例基準日決定ステップは、前記正例時系列データ(112)のそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日(1003)として取得して、前記重要事象発生日(1003)から前記正例基準日(115)までの期間を予兆期間とし、前記正例時系列データ(112)のそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データ(113)の負例基準日(120)を決定することを特徴とする特徴量生成方法。
2 プロセッサ
3 メモリ
4 ストレージ装置
101 目的事象発生時刻データ
102 時系列データ
103 特徴量算出方法ユーザ設定
110 経時特徴量生成部
111 時系列データ分割部
112 正例時系列データ
113 負例時系列データ
114 正例基準日決定部
115 正例基準日
116 特徴量算出部
117 特徴量算出定義
118 正例特徴量
119 負例基準日決定部
120 負例基準日
121 負例特徴量
122 第1特徴量リスト
150 特徴選択部
151 特徴量重要度算出部
152 特徴量重要度
153 特徴量累積閾値判定部
154 第2特徴量リスト
160 機械学習部
Claims (20)
- プロセッサとメモリを有する計算機が、時系列データを受け付けて目的事象の発生を予測する機械学習部への入力データとなる特徴量を生成する特徴量生成方法であって、
前記計算機が、値とタイムスタンプを含む複数の時系列データを受け付ける時系列データ入力ステップと、
前記計算機が、前記目的事象が発生したタイムスタンプを含む目的事象発生データを受け付ける目的事象発生データ入力ステップと、
前記計算機が、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義を受け付ける特徴量算出定義入力ステップと、
前記計算機が、目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する分割ステップと、
前記計算機が、前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定ステップと、
前記計算機が、前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する正例特徴量算出ステップと、
前記計算機が、前記正例基準日、前記正例特徴量、及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定ステップと、
前記計算機が、前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出する負例特徴量算出ステップと、
を含むことを特徴とする特徴量生成方法。 - 請求項1に記載の特徴量生成方法であって、
前記計算機が、前記正例特徴量と負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力する経時特徴量生成ステップと、
前記計算機が、前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出ステップと、
前記計算機が、前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの正例特徴量及び負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定ステップと、
をさらに含むことを特徴とする特徴量生成方法。 - 請求項2に記載の特徴量生成方法であって、
前記特徴量累積閾値判定ステップは、
前記累積値が所定の閾値Th1に達した時点で、第1特徴量リストに未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出ステップで特徴量重要度の算出を行って、前記特徴量重要度の累積値が閾値Th1に達した時点で第1特徴量リストに未処理のデータが無くなるまで前記特徴量重要度算出ステップと、前記特徴量累積閾値判定ステップによる絞り込みを繰り返すことを特徴とする特徴量生成方法。 - 請求項2に記載の特徴量生成方法であって、
前記計算機が、前記算出された前記特徴量重要度を入力して、前記特徴量重要度の値に応じて前記特徴量算出定義を変更する特徴量算出更新ステップを、さらに含むことを特徴とする特徴量生成方法。 - 請求項1に記載の特徴量生成方法であって、
前記負例基準日決定ステップは、
第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定する基準スライドステップと、
前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定する統計期間設定ステップと、
前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データの特徴量を算出して各基準日毎に負例基準日別特徴量を算出する負例基準日別特徴量算出ステップと、
前記正例基準日のそれぞれについて前記複数の各統計期間で正例時系列データの特徴量を算出して各正例基準日毎に正例基準日別特徴量を算出する正例基準日別特徴量算出ステップと、
前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日として決定する決定ステップと、を含むことを特徴とする特徴量生成方法。 - 請求項5に記載の特徴量生成方法であって、
前記負例基準日決定ステップは、
前記複数の統計期間が負例時系列データの全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成方法。 - 請求項1に記載の特徴量生成方法であって、
前記負例基準日決定ステップは、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間とし、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データの負例基準日を決定することを特徴とする特徴量生成方法。 - 請求項1に記載の特徴量生成方法であって、
前記負例基準日決定ステップは、
前記正例基準日の頻度分布を算出し、前記頻度分布と同一の確率分布で、負例時系列データのそれぞれについて負例基準日を決定することを特徴とする特徴量生成方法。 - 請求項5に記載の特徴量生成方法であって、
前記計算機が、前記特徴量重要度を受け付けて前記特徴量算出定義を更新する特徴量算出定義更新ステップを、さらに含み、
前記特徴量重要度算出ステップは、
前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度を算出し、
前記特徴量算出定義更新ステップは、
前記複数の異なる統計期間毎の前記特徴量重要度を受け付けて、前記特徴量重要度が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知することを特徴とする特徴量生成方法。 - 請求項7に記載の特徴量生成手法であって、
前記負例基準日決定ステップは、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間として算出し、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布から予兆期間を決定するステップと、
前記負例時系列データのそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度を算出し、前記特徴量重要度を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量を算出するステップと、
前記負例時系列データの時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日として算出するステップと、
前記正例予兆期間頻度分布から算出した予兆期間を前記重要事象発生日に加算して負例基準日を算出するステップと、
を含むことを特徴とする特徴量生成方法。 - プロセッサとメモリを含んで、時系列データを受け付けて目的事象の発生を予測する機械学習部への入力データとなる特徴量を生成する特徴量生成装置であって、
値とタイムスタンプを含む複数の時系列データと、前記目的事象が発生したタイムスタンプを含む目的事象発生データと、前記時系列データの特徴量を算出する内容を定義した特徴量算出定義とを受け付けて、前記時系列データから正例特徴量と負例特徴量及び第1特徴量リストを出力する経時特徴量生成部と、
前記正例特徴量と前記負例特徴量及び前記第1特徴量リストを受け付けて、学習対象の前記正例特徴量及び前記負例特徴量を指定する第2特徴量リストを生成する特徴選択部と、を有し、
前記経時特徴量生成部は、
目的事象発生データを参照して前記時系列データを、正例時系列データと負例時系列データに分割する時系列データ分割部と、
前記正例時系列データにおける基準日である、正例基準日を決定する正例基準日決定部と、
前記正例時系列データと前記正例基準日の組み合わせから、前記特徴量算出定義に基づいて正例特徴量を算出する特徴量算出部と、
前記正例基準日、前記正例特徴量及び前記負例時系列データを入力として、負例基準日を決定する負例基準日決定部と、を有し、
前記特徴量算出部は、
前記負例時系列データと前記負例基準日の組み合わせから、前記特徴量算出定義に基づいて負例特徴量を算出することを特徴とする特徴量生成装置。 - 請求項11に記載の特徴量生成装置であって、
前記経時特徴量生成部は、
前記正例特徴量と前記負例特徴量のリストを第1特徴量リストとして生成し、前記正例特徴量及び前記負例特徴量と第1特徴量リストを出力し、
前記特徴選択部150は、
前記第1特徴量リストに記載されている正例特徴量と負例特徴量の特徴量重要度を算出する特徴量重要度算出部と、
前記特徴量重要度の値が大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの前記正例特徴量及び前記負例特徴量を学習対象の特徴量として第2特徴量リストに格納する特徴量累積閾値判定部と、
をさらに有することを特徴とする特徴量生成装置。 - 請求項11に記載の特徴量生成装置であって、
前記特徴量累積閾値判定部は、
前記累積値が所定の閾値Th1に達した時点で、前記第1特徴量リストに未処理のデータが存在する場合には、未処理のデータを削除してから再度前記特徴量重要度算出部で特徴量重要度の算出を行って、前記特徴量重要度の累積値が閾値Th1に達した時点で第1特徴量リストに未処理のデータが無くなるまで前記特徴量重要度算出部と前記特徴量累積閾値判定部による絞り込みを繰り返すことを特徴とする特徴量生成装置。 - 請求項12に記載の特徴量生成装置であって、
前記算出された前記特徴量重要度を入力して、前記特徴量重要度の値に応じて前記特徴量算出定義を変更する特徴量算出定義更新部を、さらに有することを特徴とする特徴量生成装置。 - 請求項11に記載の特徴量生成装置であって、
前記負例基準日決定部は、
第1基準日を予め設定された基準日に設定し、前記第1基準日から所定の日数間隔でずらして第N基準日まで複数の基準日を設定し、前記第1基準日から前記第N基準日までのそれぞれについて、予め設定した複数の統計期間を設定し、前記第1基準日から前記第N基準日までのそれぞれについて各統計期間で負例時系列データの特徴量を算出して各基準日毎に負例基準日別特徴量を算出し、前記正例基準日のそれぞれについて前記複数の各統計期間で正例時系列データの特徴量を算出して各正例基準日毎に正例基準日別特徴量を算出し、前記負例基準日別特徴量と前記正例基準日別特徴量を所定の特徴量空間に配置して、各基準日間の距離を算出して、前記正例基準日別特徴量のうちの何れかと最も距離の近い負例基準日別特徴量の基準日を負例基準日として決定することを特徴とする特徴量生成装置。 - 請求項15に記載の特徴量生成装置であって、
前記負例基準日決定部は、
前記複数の統計期間が前記負例時系列データの全期間を網羅するように、前記第1基準日から第N基準日と前記統計期間を設定することを特徴とする特徴量生成装置。 - 請求項11に記載の特徴量生成装置であって、
前記負例基準日決定部は、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間とし、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布と同一の確率分布となるように、前記負例時系列データの負例基準日を決定することを特徴とする特徴量生成装置。 - 請求項11に記載の特徴量生成装置であって、
前記負例基準日決定部は、
前記正例基準日の頻度分布を算出し、前記頻度分布と同一の確率分布で、負例時系列データのそれぞれについて負例基準日を決定することを特徴とする特徴量生成装置。 - 請求項15に記載の特徴量生成装置であって、
前記特徴量重要度を受け付けて前記特徴量算出定義を更新する特徴量算出定義更新部を、さらに有し、
前記特徴量重要度算出部は、
前記複数の異なる統計期間毎の前記特徴量から前記特徴量重要度を算出し、
前記特徴量算出定義更新は、
前記複数の異なる統計期間毎の前記特徴量重要度を受け付けて、前記特徴量重要度が他の統計期間よりも大きい統計期間が存在する場合には、新たな統計期間の追加を通知することを特徴とする特徴量生成装置。 - 請求項17に記載の特徴量生成手法であって、
前記負例基準日決定部は、
前記正例時系列データのそれぞれについて目的事象の発生に関連する重要事象の発生日を重要事象発生日として取得して、前記重要事象発生日から前記正例基準日までの期間を予兆期間として算出し、前記正例時系列データのそれぞれについて正例予兆期間頻度分布を算出し、前記正例予兆期間頻度分布から予兆期間を決定する予兆期間決定部と、
前記負例時系列データのそれぞれについて特徴量を算出し、当該特徴量から特徴量重要度を算出し、前記特徴量重要度を値の大きい順に累積を行って、累積値が所定の閾値Th1に達するまでの負例特徴量を算出し、前記負例時系列データの時系列の過去から現在へ向けて特徴量が所定の閾値Th4を初めて超えた日を重要事象発生日として算出し、前記正例予兆期間頻度分布から算出した予兆期間を前記重要事象発生日に加算して負例基準日を算出するする重要特徴量探索部と、
を有することを特徴とする特徴量生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020095384A JP7481909B2 (ja) | 2020-06-01 | 2020-06-01 | 特徴量生成方法及び特徴量生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020095384A JP7481909B2 (ja) | 2020-06-01 | 2020-06-01 | 特徴量生成方法及び特徴量生成装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021189833A true JP2021189833A (ja) | 2021-12-13 |
JP2021189833A5 JP2021189833A5 (ja) | 2023-02-10 |
JP7481909B2 JP7481909B2 (ja) | 2024-05-13 |
Family
ID=78849612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020095384A Active JP7481909B2 (ja) | 2020-06-01 | 2020-06-01 | 特徴量生成方法及び特徴量生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7481909B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023095680A1 (ja) | 2021-11-24 | 2023-06-01 | 株式会社レゾナック | 予測装置、学習装置、予測方法、学習方法、予測プログラム及び学習プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5747190B2 (ja) | 2010-03-02 | 2015-07-08 | 株式会社国際電気通信基礎技術研究所 | ホームネットワーク管理システム |
JP6338984B2 (ja) | 2014-09-12 | 2018-06-06 | 株式会社東芝 | 行動分析装置、行動分析方法、及びプログラム |
JP2019140861A (ja) | 2018-02-15 | 2019-08-22 | 中電技術コンサルタント株式会社 | 電力データ処理システム及び電力データ処理システムを用いて電力データを処理する方法 |
-
2020
- 2020-06-01 JP JP2020095384A patent/JP7481909B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023095680A1 (ja) | 2021-11-24 | 2023-06-01 | 株式会社レゾナック | 予測装置、学習装置、予測方法、学習方法、予測プログラム及び学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7481909B2 (ja) | 2024-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170372232A1 (en) | Data quality detection and compensation for machine learning | |
Kugiumtzis et al. | Measures of analysis of time series (MATS): A MATLAB toolkit for computation of multiple measures on time series data bases | |
CN110503531A (zh) | 时序感知的动态社交场景推荐方法 | |
EP3299972A1 (en) | Efficient query processing using histograms in a columnar database | |
KR102068715B1 (ko) | 변수 중요도에 따른 가중치가 적용된 변수를 이용한 이상값 탐지 장치 및 방법 | |
CN113723985A (zh) | 销量预测模型的训练方法、装置及电子设备、存储介质 | |
JP2020091756A (ja) | 学習方法、学習プログラムおよび学習装置 | |
JP7139932B2 (ja) | 需要予測方法、需要予測プログラムおよび需要予測装置 | |
Verma et al. | Feature selection | |
JP6242540B1 (ja) | データ変換システム及びデータ変換方法 | |
CN104662564A (zh) | 数据分析装置以及程序 | |
JP2021189833A (ja) | 特徴量生成方法及び特徴量生成装置 | |
EP3923130B1 (en) | Optimizing garbage collection based on survivor lifetime prediction | |
JP6154491B2 (ja) | 計算機及びグラフデータ生成方法 | |
CN103336800A (zh) | 基于行为分析的指纹存储比对的方法 | |
Li et al. | iMiner: mining inventory data for intelligent management | |
JP2022067897A (ja) | 情報処理方法、および情報処理プログラム | |
JP4711863B2 (ja) | 系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置 | |
JP7458302B2 (ja) | 理解難易度算出装置及び理解難易度算出方法。 | |
CN117539948B (zh) | 基于深度神经网络的业务数据检索方法及装置 | |
Vasumathi et al. | A comparative study on traditional data mining and big data mining classification algorithms | |
US20230334282A1 (en) | Data management system and data management method | |
US20230325692A1 (en) | Search support device and search support method | |
Wei et al. | Temporally Multi-Scale Sparse Self-Attention for Physical Activity Data Imputation | |
WO2021024882A1 (ja) | 商品売上予測に用いる複数の商品情報を対応付ける判定サーバ及び判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230202 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240322 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7481909 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |