Split dize karakter alternatif dayanarak R

SORU

1 NİSAN 2015, ÇARŞAMBA

Split dize karakter alternatif dayanarak R

Gibi bir dize bölme için etkili bir yol bulmaya çalışıyorum

"111110000011110000111000"

bir vektör içine

[1] "11111" "00000" "1111" "0000" "111" "000"

"0" ve "1" Herhangi bir alternatif karakter olabilir.

CEVAP

1 NİSAN 2015, ÇARŞAMBA

Deneyin

strsplit(str1, '(?<=1)(?=0)|(?<=0)(?=1)', perl=TRUE)[[1]]
#[1] "11111" "00000" "1111"  "0000"  "111"   "000"

Güncelleme

@Rawr bir değişiklik stri_extract_all_regex ile çözüm

library(stringi)
stri_extract_all_regex(str1, '(?:(\\w))\\1*')[[1]]
#[1] "11111" "00000" "1111"  "0000"  "111"   "000"  


stri_extract_all_regex(x1, '(?:(\\w))\\1*')[[1]]
#[1] "11111" "00000" "222"   "000"   "3333"  "000"   "1111"  "0000"  "111"  
#[10] "000"  

stri_extract_all_regex(x2, '(?:(\\w))\\1*')[[1]]
#[1] "aaaaa"   "bb"      "ccccccc" "bbb"     "a"       "d"       "11111"  
#[8] "00000"   "222"     "aaa"     "bb"      "cc"      "d"       "11"     
#[15] "D"       "aa"      "BB"

Kriterler

library(stringi) 
set.seed(24)
x3 <- stri_rand_strings(1, 1e4)

akrun <- function() stri_extract_all_regex(x3, '(?:(\\w))\\1*')[[1]]
#modified @thelatemail's function to make it bit more general
thelate <- function() regmatches(x3,gregexpr("(?:(\\w))\\1*", x3, 
            perl=TRUE))[[1]]
rawr <- function() strsplit(x3, '(?<=(\\w))(?!\\1)', perl=TRUE)[[1]]
ananda <- function() unlist(read.fwf(textConnection(x3), 
                rle(strsplit(x3, "")[[1]])$lengths, 
                colClasses = "character"))
Colonel <- function() with(rle(strsplit(x3,'')[[1]]), 
   mapply(function(u,v) paste0(rep(v,u), collapse=''), lengths, values))

Cryo <- function(){
   res_vector=rep(NA_character_,nchar(x3))
  res_vector[1]=substr(x3,1,1)
  counter=1
  old_tmp=''

   for (i in 2:nchar(x3)) {
    tmp=substr(x3,i,i)
    if (tmp==old_tmp) {
    res_vector[counter]=paste0(res_vector[counter],tmp)
    } else {
    res_vector[counter 1]=tmp
    counter=counter 1
    }
  old_tmp=tmp
   }

 res_vector[!is.na(res_vector)]
  }


 richard <- function(){
     cs <- cumsum(
     rle(stri_split_boundaries(x3, type = "character")[[1L]])$lengths
   )
   stri_sub(x3, c(1, head(cs   1, -1)), cs)
  }

 nicola<-function(x) {
   indices<-c(0,which(diff(as.integer(charToRaw(x)))!=0),nchar(x))
   substring(x,indices[-length(indices)] 1,indices[-1])
 }

 richard2 <- function() {
  cs <- cumsum(rle(strsplit(x3, NULL)[[1L]])[[1L]])
  stri_sub(x3, c(1, head(cs   1, -1)), cs)
 }

system.time(akrun())
# user  system elapsed 
# 0.003   0.000   0.003 

system.time(thelate())
#   user  system elapsed 
#  0.272   0.001   0.274 

system.time(rawr())
# user  system elapsed 
#  0.397   0.001   0.398 

system.time(ananda())
#  user  system elapsed 
# 3.744   0.204   3.949 

system.time(Colonel())
#   user  system elapsed 
#  0.154   0.001   0.154 

system.time(Cryo())
#  user  system elapsed 
# 0.220   0.005   0.226 

system.time(richard())
#  user  system elapsed 
# 0.007   0.000   0.006 

system.time(nicola(x3))
# user  system elapsed 
# 0.190   0.001   0.191

Biraz daha büyük bir dize

set.seed(24)
x3 <- stri_rand_strings(1, 1e6)

system.time(akrun())
#user  system elapsed 
#0.166   0.000   0.155 
system.time(richard())
#  user  system elapsed 
# 0.606   0.000   0.569 
system.time(richard2())
#  user  system elapsed 
# 0.518   0.000   0.487 

system.time(Colonel())
#  user  system elapsed 
# 9.631   0.000   9.358 


library(microbenchmark)
 microbenchmark(richard(), richard2(), akrun(), times=20L, unit='relative')
 #Unit: relative
 #     expr      min       lq     mean   median       uq      max neval cld
 # richard() 2.438570 2.633896 2.365686 2.315503 2.368917 2.124581    20   b
 #richard2() 2.389131 2.533301 2.223521 2.143112 2.153633 2.157861    20   b
 # akrun() 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000    20  a

NOT:Diğer yöntemleri çalıştırmak için çalıştı, ama bu uzun zaman alır.

veri

str1 <- "111110000011110000111000"
x1 <- "1111100000222000333300011110000111000"
x2 <- "aaaaabbcccccccbbbad1111100000222aaabbccd11DaaBB"

Bunu Paylaş:

Facebook
Twitter
Google+
E-Posta

Etiketler:

ÖNCEKİ

Java Farklı Biçimi i...

SONRAKİ

Asp.net Kimlik Doğru...

AYNI ETİKETTEKİ VİDEOLAR

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

Art Food Kit

7 Kasım 2006
Moto Journal

28 Mayıs 2007
THELIFEOFPRI

16 Mart 2011

İLGİLİ SORU / CEVAPLAR

1

Nasıl bir dize belirli bir karakter de...

18 EYLÜL 2008
2

Bir dize bir karakter Python ile değiş...

4 AĞUSTOS 2009
3

Pad sıfır sıfır bir dize SQL Server 20...

26 Mayıs 2013
4

Nasıl tek bir karakter bir dize varsa ...

3 ŞUBAT 2009
5

Nasıl belirli bir sayıda karakter için...

17 EYLÜL 2008

SORU

Split dize karakter alternatif dayanarak R

CEVAP

Güncelleme

Kriterler

veri

Java Farklı Biçimi i...

Asp.net Kimlik Doğru...

AYNI ETİKETTEKİ VİDEOLAR

YORUMLAR

SPONSOR VİDEO

Rastgele Yazarlar

Art Food Kit

Moto Journal

THELIFEOFPRI

İLGİLİ SORU / CEVAPLAR

Nasıl bir dize belirli bir karakter de...

Bir dize bir karakter Python ile değiş...

Pad sıfır sıfır bir dize SQL Server 20...

Nasıl tek bir karakter bir dize varsa ...

Nasıl belirli bir sayıda karakter için...

İLGİLİ BAĞLANTILAR