= 'hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức' inp
Text Augmentation
This contains some text augmentation functionality.
remove_vnmese_accent
remove_vnmese_accent (sentence:str, prob=1)
Perform Vietnamese accent removal
Type | Default | Details | |
---|---|---|---|
sentence | str | Input sentence | |
prob | int | 1 | Probability that this function is applied to the text |
remove_vnmese_accent(inp)
'hoi cu dan chung cu sen hong - chung cu lotus song than thu duc'
for i in range(10):
print(remove_vnmese_accent(inp,prob=0.5))
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
fill_mask_augmentation
fill_mask_augmentation (sentence:str, fillmask_pipeline, prob=1, random_top_k=1)
Type | Default | Details | |
---|---|---|---|
sentence | str | Input Sentence, | |
fillmask_pipeline | HuggingFace fill-mask pipeline | ||
prob | int | 1 | Probability that this function is applied to the text |
random_top_k | int | 1 | To select output randomly from top k mask filled |
from transformers import pipeline
from that_nlp_library.text_transformation import apply_vnmese_word_tokenize
= pipeline("fill-mask", model='vinai/phobert-base') fillmask
/home/quan/anaconda3/envs/nlp_dev/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
warnings.warn(
Some weights of the model checkpoint at vinai/phobert-base were not used when initializing RobertaForMaskedLM: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing RobertaForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
='Tôi vào phòng và mở TV lên. Tìm đến bóng đá là cách duy nhất để tôi thư giãn'
inp= apply_vnmese_word_tokenize(inp) # because we are using phobert
inp print(inp)
Tôi vào phòng và mở TV lên . Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
1) random.seed(
=1) fill_mask_augmentation(inp,fillmask,random_top_k
CPU times: user 1.11 s, sys: 46.8 ms, total: 1.16 s
Wall time: 102 ms
'Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn'
=10) fill_mask_augmentation(inp,fillmask,random_top_k
'Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để bạn thư_giãn'
1) random.seed(
for i in range(10):
print(fill_mask_augmentation(inp,fillmask,random_top_k=5,prob=1))
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để bạn thư_giãn
Tôi vào phòng và mở TV lên Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. quan_tâm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi về phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên xem Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. liên_quan đến bóng_đá là cách duy_nhất để tôi thư_giãn