Test statistico per le serie temporali in cui si verifica l'esito - pitone

voti
0

Mi sto informando sull'assistenza per i test di regressione. Ho una serie temporale continua che oscilla tra numeri interi positivi e negativi. Ho anche eventi che si verificano durante questa serie temporale in punti temporali apparentemente casuali. In sostanza, quando si verifica un evento, prendo il rispettivo numero intero. Poi voglio testare se questo intero influenza l'evento. Come in, ci sono più numeri interi positivi/negativi

All'inizio pensavo che la regressione logistica con il numero positivo/negativo, ma che avrebbe richiesto almeno due gruppi distinti. Invece, ho solo informazioni sugli eventi che si sono verificati. Non posso includere quella quantità di eventi che non si verificano in quanto è in qualche modo continua e casuale. La quantità di volte che un evento non si verifica è impossibile da misurare

Quindi il mio gruppo distinto è tutto vero in un certo senso, perché non ho alcun risultato da qualcosa che non è successo. Quello che sto cercando di classificare è

Quando si verifica un risultato, il numero intero positivo o negativo influenza questo risultato.

È pubblicato 11/05/2020 alle 04:28
fonte dall'utente
In altre lingue...                            


3 risposte

voti
0

Anche se la domanda è piuttosto difficile da capire dopo il primo paragrafo. Lasciatemi aiutare da quello che potrei capire da questa domanda.

Supponendo che si voglia capire se c'è una relazione tra gli eventi che accadono e gli interi nei dati.

Primo approccio: Tracciare i dati in scala 2d e controllare visivamente se c'è una relazione tra i dati. 2° approccio: rendere i dati degli eventi continui e rimuovere gli eventi da altri dati e utilizzando la finestra scorrevole rendere i dati uniformi e poi confrontare entrambi i trend.

L'approccio sopra descritto funziona bene solo se comprendo correttamente il vostro problema C'è anche un'altra cosa nota come pregiudizio di sopravvivenza. Potrebbero mancare dei dati, controllate anche questa parte.

Risposto il 18/05/2020 a 13:52
fonte dall'utente

voti
0

Sembra che siate interessati a determinare le forze sottostanti che producono un determinato flusso di dati. Tali modelli matematici sono chiamati modelli di Markov. Un esempio classico è lo studio del testo

Per esempio, se eseguo un algoritmo Hidden Markov Model su un paragrafo di testo inglese, allora scoprirò che ci sono due categorie di guida che determinano le probabilità di quali lettere compaiono nel paragrafo. Queste categorie possono essere grossolanamente suddivise in due gruppi, "aeiouy" e "bcdfghjklmnpqrstvwwxz". Né la matematica né l'HMM "sapevano" come chiamare queste categorie, ma sono ciò a cui si converge statisticamente sull'analisi di un paragrafo di testo. Potremmo chiamare queste categorie "vocali" e "consonanti". Quindi, sì, le vocali e le consonanti non sono solo categorie di prima elementare da imparare, ma seguono il modo in cui il testo viene scritto statisticamente. È interessante notare che uno "spazio" si comporta più come una vocale che come una consonante. Non ho dato le probabilità per l'esempio di cui sopra, ma è interessante notare che "y" finisce con una probabilità di circa 0,6 vocale e 0,4 consonante; ciò significa che "y" è la vocale statisticamente più consonante

Un ottimo articolo è https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf che ripercorre le idee di base di questo tipo di analisi delle serie temporali e fornisce anche qualche sudo-codice di riferimento

Non so molto dei dati con cui avete a che fare e non so se i concetti di "positivo" e "negativo" stanno giocando un fattore determinante nei dati che vedete, ma se avete eseguito un HMM sui vostri dati e trovate che i due gruppi sono la raccolta di numeri positivi e la raccolta di numeri negativi, allora la vostra risposta sarebbe confermata, sì, le due categorie più influenti che stanno guidando i vostri dati sono i concetti di positivo e negativo. Se non si dividono in modo uniforme, allora la vostra risposta è che questi concetti non sono un fattore influente nel guidare i dati. A maggior ragione, l'algoritmo si concluderebbe con diverse matrici di probabilità che vi mostrerebbero quanto ogni intero dei vostri dati è influenzato da ogni categoria, quindi avreste una comprensione molto maggiore del comportamento dei vostri dati delle serie temporali

Risposto il 19/05/2020 a 07:59
fonte dall'utente

voti
0

Forse sto fraintendendo il vostro problema, ma non credo che possiate compiere alcun tipo di regressione significativa senza ulteriori informazioni.

La regressione è di solito usata per trovare una relazione tra due o più variabili, tuttavia sembra che si abbia una sola variabile (se sono positive o negative) e una costante (il risultato è sempre vero nei dati). Forse si potrebbero fare delle statistiche sulla distribuzione dei numeri (media, mediana, deviazione standard), ma non sono sicuro di come si possa fare la regressione. https://en.wikipedia.org/wiki/Regression_analysis

Potreste voler considerare che ci potrebbe essere un forte pregiudizio di sopravvivenza se vi manca una grossa fetta dei vostri dati. https://en.wikipedia.org/wiki/Survivorship_bias

Spero che questo sia almeno un po' utile per orientarvi nella giusta direzione

Risposto il 11/05/2020 a 04:53
fonte dall'utente

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more