Sembra che siate interessati a determinare le forze sottostanti che producono un determinato flusso di dati. Tali modelli matematici sono chiamati modelli di Markov. Un esempio classico è lo studio del testo
Per esempio, se eseguo un algoritmo Hidden Markov Model su un paragrafo di testo inglese, allora scoprirò che ci sono due categorie di guida che determinano le probabilità di quali lettere compaiono nel paragrafo. Queste categorie possono essere grossolanamente suddivise in due gruppi, "aeiouy" e "bcdfghjklmnpqrstvwwxz". Né la matematica né l'HMM "sapevano" come chiamare queste categorie, ma sono ciò a cui si converge statisticamente sull'analisi di un paragrafo di testo. Potremmo chiamare queste categorie "vocali" e "consonanti". Quindi, sì, le vocali e le consonanti non sono solo categorie di prima elementare da imparare, ma seguono il modo in cui il testo viene scritto statisticamente. È interessante notare che uno "spazio" si comporta più come una vocale che come una consonante. Non ho dato le probabilità per l'esempio di cui sopra, ma è interessante notare che "y" finisce con una probabilità di circa 0,6 vocale e 0,4 consonante; ciò significa che "y" è la vocale statisticamente più consonante
Un ottimo articolo è https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf che ripercorre le idee di base di questo tipo di analisi delle serie temporali e fornisce anche qualche sudo-codice di riferimento
Non so molto dei dati con cui avete a che fare e non so se i concetti di "positivo" e "negativo" stanno giocando un fattore determinante nei dati che vedete, ma se avete eseguito un HMM sui vostri dati e trovate che i due gruppi sono la raccolta di numeri positivi e la raccolta di numeri negativi, allora la vostra risposta sarebbe confermata, sì, le due categorie più influenti che stanno guidando i vostri dati sono i concetti di positivo e negativo. Se non si dividono in modo uniforme, allora la vostra risposta è che questi concetti non sono un fattore influente nel guidare i dati. A maggior ragione, l'algoritmo si concluderebbe con diverse matrici di probabilità che vi mostrerebbero quanto ogni intero dei vostri dati è influenzato da ogni categoria, quindi avreste una comprensione molto maggiore del comportamento dei vostri dati delle serie temporali