statistiche Pandas dataframe per riga id

voti
0

Sto lavorando su una ricerca e ho creato una dataframe con colonne id, db_keywords, new_words, count_new_words. Nella colonna new_words ho parole che non sono nelle db_keywords colonna e nelle count_new_words contare di nuove parole. Ho usato describe()con count_new_words colonna in modo da avere le statistiche di base. Vorrei utilizzare un metodo per avere statistiche per fila (id). Ho bisogno di un certo valore o di alcuni parametri, ad esempio il numero di nuove parole al id non sono presenti nel nostro database così in questo caso db_keywords. Questo può essere qualsiasi metodo, perché non so come affrontare questo problema. Ho creato una simile prova di dataframe solo di visualizzare il mio problema.

Esempio:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Mi wold piace sapere ad esempio qual è la valle aggiunto per id 1 con una sola parola nella colonna db_keywords e abbiamo trovato due nuove parole presentate nella colonna new_words. Come devo calcolare e presentare questo?

È pubblicato 13/02/2020 alle 23:54
fonte dall'utente
In altre lingue...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more