こんにちは、Stack Overflow コミュニティです。
15,000 を超える製品 (5*15,000**52 レコード) に関する 5 年間の週次価格データがあります。各製品は単変量時系列です。目的は、各製品の価格を予測することです。
私は、各 ts 系列を視覚化し、その ACF、PACF をプロットし、系列を予測できる一変量時系列分析についてはよく知っています。ただし、この場合、15,000 個の異なる時系列があり、各時系列、その ACF、PACF、各製品の予測を個別に視覚化し、調整/決定を行うことができない場合、一変量時系列分析は不可能です。
R を使用してこの複数系列の予測問題を解決するための推奨事項と指示を探しています (推奨)。あらゆるご支援とサポートをいただければ幸いです。
さて事前にご確認ください。
------------------------
予測パッケージの auto.arima を使用することをお勧めします。
こうすることで、適切な ARIMA モデルを検索する必要がなくなります。
auto.arima: AIC、AICc、または BIC 値に従って最適な ARIMA モデルを返します。この関数は、指定された順序制約内で可能なモデルの検索を実行します。
fit <- auto.arima(WWWusage)
plot(forecast(fit,h=20))
WWWusage の代わりに、時系列の 1 つを入力して ARIMA モデルに適合させることができます。
予測を使用すると、予測を実行します。この場合は 20 時間ステップ先 (h=20) です。
auto.arima は基本的に ARIMA パラメータを選択します (AIC - Akaike 情報による)イオン基準)。
計算コストが高すぎる場合は、試してみる必要があります。しかし、一般に、これほど多くの時系列を予測することはそれほど珍しいことではありません。
もう 1 つ留意すべきことは、結局のところ、その可能性はそれほど低いわけではないかもしれませんが、時系列には何らかの相互相関があるということです。したがって、予測精度の観点からは、これを単変量予測問題として扱わない方が合理的と考えられます。
この設定は、最近 Kaggle で開催された m5 予測コンペティションと非常によく似ています。目標は、ウォルマートが米国で販売するさまざまな製品の販売数量を予測することでした。
つまり、予測する必要がある販売データの時系列が大量にあります。この場合、勝者は単変量予測を実行しませんでした。ここに優勝したソリューションの説明へのリンクがありますション。この設定はあなたのものと非常に似ているので、このチャレンジに関する kaggle フォーラムを少し読んでみるとよいでしょう。便利なノートブック (コード例) も利用できるかもしれません。
2
ありがとう@Steffen。私は他のいくつかのソリューションで auto.arima を使用し、検討しましたが、さらにアイデアを探しています。一変量時系列に最も適していると思います
– ラムザンアンジュム
2020 年 9 月 3 日 21:54
どういたしまして。申し訳ありませんが、あなたが明示的に単変量アプローチを探していることをどういうわけか理解しました。私が投稿したように、はい、あなたはおそらく正しいです - 多変量アプローチの方が適しているかもしれません。多変量時系列については、実際には単一のアプローチしかありません。経験から言えば (もちろん、データセットにも少し依存します) 特徴エンジニアリング (時間特徴の作成) と ML 手法の使用により、最良の結果が得られることがよくありました。 m5 コンペティションの優勝者にとっても非常にうまくいきました...しかし、特徴エンジニアリングとモデルの選択には多くの作業が費やされています...
– シュテフェン モリッツ
2020 年 9 月 3 日 22:07