Text Augmentation

This contains some text augmentation functionality.

source

remove_vnmese_accent

 remove_vnmese_accent (sentence:str, prob=1)

Perform Vietnamese accent removal

Type Default Details
sentence str Input sentence
prob int 1 Probability that this function is applied to the text
inp = 'hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức'
remove_vnmese_accent(inp)
'hoi cu dan chung cu sen hong - chung cu lotus song than thu duc'
for i in range(10):
    print(remove_vnmese_accent(inp,prob=0.5))
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc

source

fill_mask_augmentation

 fill_mask_augmentation (sentence:str, fillmask_pipeline, prob=1,
                         random_top_k=1)
Type Default Details
sentence str Input Sentence,
fillmask_pipeline HuggingFace fill-mask pipeline
prob int 1 Probability that this function is applied to the text
random_top_k int 1 To select output randomly from top k mask filled
from transformers import pipeline
from that_nlp_library.text_transformation import apply_vnmese_word_tokenize
fillmask = pipeline("fill-mask", model='vinai/phobert-base')
/home/quan/anaconda3/envs/nlp_dev/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
Some weights of the model checkpoint at vinai/phobert-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
inp='Tôi vào phòng và mở TV lên. Tìm đến bóng đá là cách duy nhất để tôi thư giãn'
inp = apply_vnmese_word_tokenize(inp) # because we are using phobert
print(inp)
Tôi vào phòng và mở TV lên . Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
random.seed(1)
fill_mask_augmentation(inp,fillmask,random_top_k=1)
CPU times: user 1.11 s, sys: 46.8 ms, total: 1.16 s
Wall time: 102 ms
'Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn'
fill_mask_augmentation(inp,fillmask,random_top_k=10)
'Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để bạn thư_giãn'
random.seed(1)
for i in range(10):
    print(fill_mask_augmentation(inp,fillmask,random_top_k=5,prob=1))
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để bạn thư_giãn
Tôi vào phòng và mở TV lên Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. quan_tâm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi về phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên xem Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. liên_quan đến bóng_đá là cách duy_nhất để tôi thư_giãn