mirror of
https://github.com/PaddlePaddle/PaddleOCR.git
synced 2025-06-26 21:24:27 +00:00
Add support for Hebrew Language and Alphabet (#13797)
* Add Hebrew language support for training https://en.wikipedia.org/wiki/Unicode_and_HTML_for_the_Hebrew_alphabet * Add Hebrew language dictionary https://en.wikipedia.org/wiki/Unicode_and_HTML_for_the_Hebrew_alphabet * Add Samaritan Script dictionary Samaritan Script is RTL like Arabic and Hebrew, used for Samaritan Hebrew and Aramaic, sometimes has Arabic letters in some texts. https://en.wikipedia.org/wiki/Samaritan_(Unicode_block) https://en.wikipedia.org/wiki/Samaritan_Hebrew https://en.wikipedia.org/wiki/Samaritan_Aramaic_language * Add Samaritan Script training Samaritan Script is RTL like Arabic and Hebrew, used for Samaritan Hebrew and Aramaic, sometimes has Arabic letters in some texts. https://en.wikipedia.org/wiki/Samaritan_(Unicode_block) https://en.wikipedia.org/wiki/Samaritan_Hebrew https://en.wikipedia.org/wiki/Samaritan_Aramaic_language * Update hebrew_dict.txt
This commit is contained in:
parent
77f4c01f69
commit
6225a90ef0
110
configs/rec/multi_language/rec_hebrew_lite_train.yml
Normal file
110
configs/rec/multi_language/rec_hebrew_lite_train.yml
Normal file
@ -0,0 +1,110 @@
|
||||
Global:
|
||||
use_gpu: true
|
||||
epoch_num: 500
|
||||
log_smooth_window: 20
|
||||
print_batch_step: 10
|
||||
save_model_dir: ./output/rec_hebrew_lite
|
||||
save_epoch_step: 3
|
||||
eval_batch_step:
|
||||
- 0
|
||||
- 2000
|
||||
cal_metric_during_train: true
|
||||
pretrained_model: null
|
||||
checkpoints: null
|
||||
save_inference_dir: null
|
||||
use_visualdl: false
|
||||
infer_img: null
|
||||
character_dict_path: ppocr/utils/dict/hebrew_dict.txt
|
||||
max_text_length: 25
|
||||
infer_mode: false
|
||||
use_space_char: true
|
||||
Optimizer:
|
||||
name: Adam
|
||||
beta1: 0.9
|
||||
beta2: 0.999
|
||||
lr:
|
||||
name: Cosine
|
||||
learning_rate: 0.001
|
||||
regularizer:
|
||||
name: L2
|
||||
factor: 1.0e-05
|
||||
Architecture:
|
||||
model_type: rec
|
||||
algorithm: CRNN
|
||||
Transform: null
|
||||
Backbone:
|
||||
name: MobileNetV3
|
||||
scale: 0.5
|
||||
model_name: small
|
||||
small_stride:
|
||||
- 1
|
||||
- 2
|
||||
- 2
|
||||
- 2
|
||||
Neck:
|
||||
name: SequenceEncoder
|
||||
encoder_type: rnn
|
||||
hidden_size: 48
|
||||
Head:
|
||||
name: CTCHead
|
||||
fc_decay: 1.0e-05
|
||||
Loss:
|
||||
name: CTCLoss
|
||||
PostProcess:
|
||||
name: CTCLabelDecode
|
||||
Metric:
|
||||
name: RecMetric
|
||||
main_indicator: acc
|
||||
Train:
|
||||
dataset:
|
||||
name: SimpleDataSet
|
||||
data_dir: train_data/
|
||||
label_file_list:
|
||||
- train_data/hebrew_train.txt
|
||||
transforms:
|
||||
- DecodeImage:
|
||||
img_mode: BGR
|
||||
channel_first: false
|
||||
- RecAug: null
|
||||
- CTCLabelEncode: null
|
||||
- RecResizeImg:
|
||||
image_shape:
|
||||
- 3
|
||||
- 32
|
||||
- 320
|
||||
- KeepKeys:
|
||||
keep_keys:
|
||||
- image
|
||||
- label
|
||||
- length
|
||||
loader:
|
||||
shuffle: true
|
||||
batch_size_per_card: 256
|
||||
drop_last: true
|
||||
num_workers: 8
|
||||
Eval:
|
||||
dataset:
|
||||
name: SimpleDataSet
|
||||
data_dir: train_data/
|
||||
label_file_list:
|
||||
- train_data/hebrew_val.txt
|
||||
transforms:
|
||||
- DecodeImage:
|
||||
img_mode: BGR
|
||||
channel_first: false
|
||||
- CTCLabelEncode: null
|
||||
- RecResizeImg:
|
||||
image_shape:
|
||||
- 3
|
||||
- 32
|
||||
- 320
|
||||
- KeepKeys:
|
||||
keep_keys:
|
||||
- image
|
||||
- label
|
||||
- length
|
||||
loader:
|
||||
shuffle: false
|
||||
drop_last: false
|
||||
batch_size_per_card: 256
|
||||
num_workers: 8
|
110
configs/rec/multi_language/rec_samaritan_lite_train.yml
Normal file
110
configs/rec/multi_language/rec_samaritan_lite_train.yml
Normal file
@ -0,0 +1,110 @@
|
||||
Global:
|
||||
use_gpu: true
|
||||
epoch_num: 500
|
||||
log_smooth_window: 20
|
||||
print_batch_step: 10
|
||||
save_model_dir: ./output/rec_samaritan_lite
|
||||
save_epoch_step: 3
|
||||
eval_batch_step:
|
||||
- 0
|
||||
- 2000
|
||||
cal_metric_during_train: true
|
||||
pretrained_model: null
|
||||
checkpoints: null
|
||||
save_inference_dir: null
|
||||
use_visualdl: false
|
||||
infer_img: null
|
||||
character_dict_path: ppocr/utils/dict/samaritan_dict.txt
|
||||
max_text_length: 25
|
||||
infer_mode: false
|
||||
use_space_char: true
|
||||
Optimizer:
|
||||
name: Adam
|
||||
beta1: 0.9
|
||||
beta2: 0.999
|
||||
lr:
|
||||
name: Cosine
|
||||
learning_rate: 0.001
|
||||
regularizer:
|
||||
name: L2
|
||||
factor: 1.0e-05
|
||||
Architecture:
|
||||
model_type: rec
|
||||
algorithm: CRNN
|
||||
Transform: null
|
||||
Backbone:
|
||||
name: MobileNetV3
|
||||
scale: 0.5
|
||||
model_name: small
|
||||
small_stride:
|
||||
- 1
|
||||
- 2
|
||||
- 2
|
||||
- 2
|
||||
Neck:
|
||||
name: SequenceEncoder
|
||||
encoder_type: rnn
|
||||
hidden_size: 48
|
||||
Head:
|
||||
name: CTCHead
|
||||
fc_decay: 1.0e-05
|
||||
Loss:
|
||||
name: CTCLoss
|
||||
PostProcess:
|
||||
name: CTCLabelDecode
|
||||
Metric:
|
||||
name: RecMetric
|
||||
main_indicator: acc
|
||||
Train:
|
||||
dataset:
|
||||
name: SimpleDataSet
|
||||
data_dir: train_data/
|
||||
label_file_list:
|
||||
- train_data/samaritan_train.txt
|
||||
transforms:
|
||||
- DecodeImage:
|
||||
img_mode: BGR
|
||||
channel_first: false
|
||||
- RecAug: null
|
||||
- CTCLabelEncode: null
|
||||
- RecResizeImg:
|
||||
image_shape:
|
||||
- 3
|
||||
- 32
|
||||
- 320
|
||||
- KeepKeys:
|
||||
keep_keys:
|
||||
- image
|
||||
- label
|
||||
- length
|
||||
loader:
|
||||
shuffle: true
|
||||
batch_size_per_card: 256
|
||||
drop_last: true
|
||||
num_workers: 8
|
||||
Eval:
|
||||
dataset:
|
||||
name: SimpleDataSet
|
||||
data_dir: train_data/
|
||||
label_file_list:
|
||||
- train_data/samaritan_val.txt
|
||||
transforms:
|
||||
- DecodeImage:
|
||||
img_mode: BGR
|
||||
channel_first: false
|
||||
- CTCLabelEncode: null
|
||||
- RecResizeImg:
|
||||
image_shape:
|
||||
- 3
|
||||
- 32
|
||||
- 320
|
||||
- KeepKeys:
|
||||
keep_keys:
|
||||
- image
|
||||
- label
|
||||
- length
|
||||
loader:
|
||||
shuffle: false
|
||||
drop_last: false
|
||||
batch_size_per_card: 256
|
||||
num_workers: 8
|
214
ppocr/utils/dict/hebrew_dict.txt
Normal file
214
ppocr/utils/dict/hebrew_dict.txt
Normal file
@ -0,0 +1,214 @@
|
||||
!
|
||||
#
|
||||
$
|
||||
%
|
||||
&
|
||||
'
|
||||
(
|
||||
+
|
||||
,
|
||||
-
|
||||
.
|
||||
/
|
||||
0
|
||||
1
|
||||
2
|
||||
3
|
||||
4
|
||||
5
|
||||
6
|
||||
7
|
||||
8
|
||||
9
|
||||
:
|
||||
?
|
||||
@
|
||||
A
|
||||
B
|
||||
C
|
||||
D
|
||||
E
|
||||
F
|
||||
G
|
||||
H
|
||||
I
|
||||
J
|
||||
K
|
||||
L
|
||||
M
|
||||
N
|
||||
O
|
||||
P
|
||||
Q
|
||||
R
|
||||
S
|
||||
T
|
||||
U
|
||||
V
|
||||
W
|
||||
X
|
||||
Y
|
||||
Z
|
||||
_
|
||||
a
|
||||
b
|
||||
c
|
||||
d
|
||||
e
|
||||
f
|
||||
g
|
||||
h
|
||||
i
|
||||
j
|
||||
k
|
||||
l
|
||||
m
|
||||
n
|
||||
o
|
||||
p
|
||||
q
|
||||
r
|
||||
s
|
||||
t
|
||||
u
|
||||
v
|
||||
w
|
||||
x
|
||||
y
|
||||
z
|
||||
É
|
||||
é
|
||||
֑
|
||||
֒
|
||||
֓
|
||||
֔
|
||||
֕
|
||||
֖
|
||||
֗
|
||||
֘
|
||||
֙
|
||||
֚
|
||||
֛
|
||||
֜
|
||||
֝
|
||||
֞
|
||||
֟
|
||||
֠
|
||||
֡
|
||||
֢
|
||||
֣
|
||||
֤
|
||||
֥
|
||||
֦
|
||||
֧
|
||||
֨
|
||||
֩
|
||||
֪
|
||||
֫
|
||||
֬
|
||||
֭
|
||||
֮
|
||||
֯
|
||||
ְ
|
||||
ֱ
|
||||
ֲ
|
||||
ֳ
|
||||
ִ
|
||||
ֵ
|
||||
ֶ
|
||||
ַ
|
||||
ָ
|
||||
ֹ
|
||||
ֺ
|
||||
ֻ
|
||||
ּ
|
||||
ֽ
|
||||
־
|
||||
ֿ
|
||||
׀
|
||||
ׁ
|
||||
ׂ
|
||||
׃
|
||||
ׄ
|
||||
ׅ
|
||||
׆
|
||||
ׇ
|
||||
א
|
||||
ב
|
||||
ג
|
||||
ד
|
||||
ה
|
||||
ו
|
||||
ז
|
||||
ח
|
||||
ט
|
||||
י
|
||||
ך
|
||||
כ
|
||||
ל
|
||||
ם
|
||||
מ
|
||||
ן
|
||||
נ
|
||||
ס
|
||||
ע
|
||||
ף
|
||||
פ
|
||||
ץ
|
||||
צ
|
||||
ק
|
||||
ר
|
||||
ש
|
||||
ת
|
||||
ׯ
|
||||
װ
|
||||
ױ
|
||||
ײ
|
||||
׳
|
||||
״
|
||||
יִ
|
||||
ﬞ
|
||||
ײַ
|
||||
ﬠ
|
||||
ﬡ
|
||||
ﬢ
|
||||
ﬣ
|
||||
ﬤ
|
||||
ﬥ
|
||||
ﬦ
|
||||
ﬧ
|
||||
ﬨ
|
||||
﬩
|
||||
שׁ
|
||||
שׂ
|
||||
שּׁ
|
||||
שּׂ
|
||||
אַ
|
||||
אָ
|
||||
אּ
|
||||
בּ
|
||||
גּ
|
||||
דּ
|
||||
הּ
|
||||
וּ
|
||||
זּ
|
||||
טּ
|
||||
יּ
|
||||
ךּ
|
||||
כּ
|
||||
לּ
|
||||
מּ
|
||||
נּ
|
||||
סּ
|
||||
ףּ
|
||||
פּ
|
||||
צּ
|
||||
קּ
|
||||
רּ
|
||||
שּ
|
||||
תּ
|
||||
וֹ
|
||||
בֿ
|
||||
כֿ
|
||||
פֿ
|
||||
ﭏ
|
222
ppocr/utils/dict/samaritan_dict.txt
Normal file
222
ppocr/utils/dict/samaritan_dict.txt
Normal file
@ -0,0 +1,222 @@
|
||||
!
|
||||
#
|
||||
$
|
||||
%
|
||||
&
|
||||
'
|
||||
(
|
||||
+
|
||||
,
|
||||
-
|
||||
.
|
||||
/
|
||||
0
|
||||
1
|
||||
2
|
||||
3
|
||||
4
|
||||
5
|
||||
6
|
||||
7
|
||||
8
|
||||
9
|
||||
:
|
||||
?
|
||||
@
|
||||
A
|
||||
B
|
||||
C
|
||||
D
|
||||
E
|
||||
F
|
||||
G
|
||||
H
|
||||
I
|
||||
J
|
||||
K
|
||||
L
|
||||
M
|
||||
N
|
||||
O
|
||||
P
|
||||
Q
|
||||
R
|
||||
S
|
||||
T
|
||||
U
|
||||
V
|
||||
W
|
||||
X
|
||||
Y
|
||||
Z
|
||||
_
|
||||
a
|
||||
b
|
||||
c
|
||||
d
|
||||
e
|
||||
f
|
||||
g
|
||||
h
|
||||
i
|
||||
j
|
||||
k
|
||||
l
|
||||
m
|
||||
n
|
||||
o
|
||||
p
|
||||
q
|
||||
r
|
||||
s
|
||||
t
|
||||
u
|
||||
v
|
||||
w
|
||||
x
|
||||
y
|
||||
z
|
||||
É
|
||||
é
|
||||
ء
|
||||
آ
|
||||
أ
|
||||
ؤ
|
||||
إ
|
||||
ئ
|
||||
ا
|
||||
ب
|
||||
ة
|
||||
ت
|
||||
ث
|
||||
ج
|
||||
ح
|
||||
خ
|
||||
د
|
||||
ذ
|
||||
ر
|
||||
ز
|
||||
س
|
||||
ش
|
||||
ص
|
||||
ض
|
||||
ط
|
||||
ظ
|
||||
ع
|
||||
غ
|
||||
ف
|
||||
ق
|
||||
ك
|
||||
ل
|
||||
م
|
||||
ن
|
||||
ه
|
||||
و
|
||||
ى
|
||||
ي
|
||||
ً
|
||||
ٌ
|
||||
ٍ
|
||||
َ
|
||||
ُ
|
||||
ِ
|
||||
ّ
|
||||
ْ
|
||||
ٓ
|
||||
ٔ
|
||||
ٰ
|
||||
ٱ
|
||||
ٹ
|
||||
پ
|
||||
چ
|
||||
ڈ
|
||||
ڑ
|
||||
ژ
|
||||
ک
|
||||
ڭ
|
||||
گ
|
||||
ں
|
||||
ھ
|
||||
ۀ
|
||||
ہ
|
||||
ۂ
|
||||
ۃ
|
||||
ۆ
|
||||
ۇ
|
||||
ۈ
|
||||
ۋ
|
||||
ی
|
||||
ې
|
||||
ے
|
||||
ۓ
|
||||
ە
|
||||
١
|
||||
٢
|
||||
٣
|
||||
٤
|
||||
٥
|
||||
٦
|
||||
٧
|
||||
٨
|
||||
٩
|
||||
ࠀ
|
||||
ࠁ
|
||||
ࠂ
|
||||
ࠃ
|
||||
ࠄ
|
||||
ࠅ
|
||||
ࠆ
|
||||
ࠇ
|
||||
ࠈ
|
||||
ࠉ
|
||||
ࠊ
|
||||
ࠋ
|
||||
ࠌ
|
||||
ࠍ
|
||||
ࠎ
|
||||
ࠏ
|
||||
ࠐ
|
||||
ࠑ
|
||||
ࠒ
|
||||
ࠓ
|
||||
ࠔ
|
||||
ࠕ
|
||||
ࠖ
|
||||
ࠗ
|
||||
࠘
|
||||
࠙
|
||||
ࠚ
|
||||
ࠛ
|
||||
ࠜ
|
||||
ࠝ
|
||||
ࠞ
|
||||
ࠟ
|
||||
ࠠ
|
||||
ࠡ
|
||||
ࠢ
|
||||
ࠣ
|
||||
ࠤ
|
||||
ࠥ
|
||||
ࠦ
|
||||
ࠧ
|
||||
ࠨ
|
||||
ࠩ
|
||||
ࠪ
|
||||
ࠫ
|
||||
ࠬ
|
||||
࠭
|
||||
࠰
|
||||
࠱
|
||||
࠲
|
||||
࠳
|
||||
࠴
|
||||
࠵
|
||||
࠶
|
||||
࠷
|
||||
࠸
|
||||
࠹
|
||||
࠺
|
||||
࠻
|
||||
࠼
|
||||
࠽
|
||||
࠾
|
Loading…
x
Reference in New Issue
Block a user