- Apa yang dimaksudkan dengan python?
- Bagaimana anda melampaui data?
- Bagaimana anda menaikkan data dalam python?
Apa yang dimaksudkan dengan python?
Oversampling secara rawak melibatkan secara rawak memilih contoh dari kelas minoriti, dengan penggantian, dan menambahkannya ke dataset latihan. Undersampling secara rawak melibatkan secara rawak memilih contoh dari kelas majoriti dan memadamnya dari dataset latihan.
Bagaimana anda melampaui data?
Untuk kemudian oversample, ambil sampel dari dataset, dan pertimbangkan j jiran terdekatnya (dalam ruang ciri). Untuk membuat titik data sintetik, ambil vektor antara salah satu jiran K, dan titik data semasa. Gongangkan vektor ini dengan nombor rawak X yang terletak di antara 0, dan 1.
Bagaimana anda menaikkan data dalam python?
Anda boleh menaikkan dataset dengan hanya menyalin rekod dari kelas minoriti. Anda boleh melakukannya melalui kaedah resample () dari sklearn. Modul Util, seperti yang ditunjukkan dalam skrip berikut. Anda dapat melihat bahawa dalam kes ini, hujah pertama kami lulus kaedah resample () adalah kelas minoriti kami, i.e. dataset spam kami.