KMWPS/preprocess.py at main · DASH-Lab/KMWPS · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
from prerequisite import *
###############데이터 상수바꾸기위해#####################################################
# 이름들 전부 name0~ 이런식으로 바꾸기

"""
2. 전처리? 였나..
"""

name_ = ['민영', '유나', '정국', '유정', '태형', '남준', '윤기', '호석', '지민', '석진', '은지',

        '동희', '새별', '진범', '민하', '광수', '재석', '지효', '쯔위', '쯔양', '태준', '진솔', '지영', '건우', '송찬',

         'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'N', 'M', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V',
         'W', 'X', 'Y', 'Z',

         '\(가\)', '\(나\)', '\(다\)', '\(라\)', '\(마\)', '\(바\)', '\(사\)', '\(아\)', '\(자\)', '\(차\)', '\(카\)', '\(타\)',
         '\(파\)', '\(하\)'

                  '월요일', '화요일', '수요일', '목요일', '금요일', '토요일', '일요일',

         '농구공', '배구공', '테니스공', '탁구공', '야구공', '축구공',

         '노란색', '파란색', '빨간색', '주황색', '남색', '보라색', '흰색', '검은색', '초록색',

         # 다리 수 세려고 일부러 다뺐음
         #  '강아지', '개구리', '거위', '고라니', '고래', '고양이', '곰', '기린',  '늑대', '달팽이', '물고기',
         #  '병아리',  '비둘기',  '사자',  '여우', '오리',  '원숭이', '코끼리',  '토끼',  '펭귄', '금붕어', '닭'

         '볼펜', '도서관', '박물관',

         '사탕', '과자', '사과', '배', '감', '귤', '포도', '수박', '토마토', '무', '당근', '오이', '배추', '김밥', '빵',
         '초코맛사탕','사과맛사탕','메론맛사탕','포도맛사탕',
         '라면', '음료수', '주스', '우유', '달걀',
         '남학생', '여학생',

         '국어', '영어', '수학', '사회', '과학', '음악', '미술', '체육',

         '오토바이', '트럭', '자동차', '자전거', '비행기', '버스', '배', '기차']

name_dict = {x: n for n, x in enumerate(name_)}
####################################################################
# 한글을 숫자로 바꾸는 preprocessing
a = ['첫[ ]?번째', '두[ ]?번째', '세[ ]?번째', '네[ ]?번째', '다섯[ ]?번째', '여섯[ ]?번째', '일곱[ ]?번째', '여덟[ ]?번째',
     '아홉[ ]?번째', '열[ ]?번째', '스무[ ]?번째', '서른[ ]?번째', '마흔[ ]?번째', '쉰[ ]?번째', '예순[ ]?번째', '일흔[ ]?번째',
     '여든[ ]?번째', '아흔[ ]?번째',

     '첫[ ]?째', '둘[ ]?째', '셋[ ]?째', '넷[ ]?째', '다섯[ ]?째', '여섯[ ]?째', '일곱[ ]?째',
     '여덟[ ]?째', '아홉[ ]?째',

     '일의[ ]?자리', '십의[ ]?자리', '백의[ ]?자리', '천의[ ]?자리',

     '두[ ]?수',

     '한[ ]?개', '두[ ]?개', '세[ ]?개', '네[ ]?개', '다섯[ ]?개', '여섯[ ]?개', '일곱[ ]?개', '여덟[ ]?개', '아홉[ ]?개',
     '열[ ]?개', '스무[ ]?개', '서른[ ]?개', '마흔[ ]?개', '쉰[ ]?개', '예순[ ]?개', '일흔[ ]?개', '여든[ ]?개', '아흔[ ]?개',

     '한[ ]?통', '한[ ]?병',

     '한[ ]?명', '두[ ]?명', '세[ ]?명', '네[ ]?명', '다섯[ ]?명', '여섯[ ]?명', '일곱[ ]?명', '여덟[ ]?명', '아홉[ ]?명',
     '열[ ]?명', '스무[ ]?명', '서른[ ]?명', '마흔[ ]?명', '쉰[ ]?명', '예순[ ]?명', '일흔[ ]?명', '여든[ ]?명', '아흔[ ]?명',

     '한[ ]?가지', '두[ ]?가지', '세[ ]?가지', '네[ ]?가지', '다섯[ ]?가지', '여섯[ ]?가지', '일곱[ ]?가지', '여덟[ ]?가지',
     '아홉[ ]?가지', '열[ ]?가지', '스무[ ]?가지', '서른[ ]?가지', '마흔[ ]?가지', '쉰[ ]?가지', '예순[ ]?가지', '일흔[ ]?가지',
     '여든[ ]?가지', '아흔[ ]?가지',

     '한[ ]?자루', '두[ ]?자루', '세[ ]?자루', '네[ ]?자루', '다섯[ ]?자루', '여섯[ ]?자루', '일곱[ ]?자루', '여덟[ ]?자루',
     '아홉[ ]?자루', '열[ ]?자루', '스무[ ]?자루', '서른[ ]?자루', '마흔[ ]?자루', '쉰[ ]?자루', '예순[ ]?자루', '일흔[ ]?자루',
     '여든[ ]?자루', '아흔[ ]?자루',

     '하나', '둘', '셋', '넷', '다섯', '여섯', '일곱', '여덟', '아홉', '열',

     '한[ ]?자리', '두[ ]?자리', '세[ ]?자리', '네[ ]?자리', '다섯[ ]?자리', '여섯[ ]?자리', '일곱[ ]?자리', '여덟[ ]?자리',
     '아홉[ ]?자리', '열[ ]?자리', '스무[ ]?자리', '서른[ ]?자리', '마흔[ ]?자리', '쉰[ ]?자리', '예순[ ]?자리', '일흔[ ]?자리',
     '여든[ ]?자리', '아흔[ ]?자리',

     '한[ ]?마리', '두[ ]?마리', '세[ ]?마리', '네[ ]?마리', '다섯[ ]?마리', '여섯[ ]?마리', '일곱[ ]?마리', '여덟[ ]?마리',
     '아홉[ ]?마리', '열[ ]?마리', '스무[ ]?마리', '서른[ ]?마리', '마흔[ ]?마리', '쉰[ ]?마리', '예순[ ]?마리', '일흔[ ]?마리',
     '여든[ ]?마리', '아흔[ ]?마리',

     '한[ ]?개', '두[ ]?개', '세[ ]?개', '네[ ]?개', '다섯[ ]?개', '여섯[ ]?개', '일곱[ ]?개', '여덟[ ]?개', '아홉[ ]?개',
     '열[ ]?개', '스무[ ]?개', '서른[ ]?개', '마흔[ ]?개', '쉰[ ]?개', '예순[ ]?개', '일흔[ ]?개', '여든[ ]?개', '아흔[ ]?개',

     '한[ ]?명', '두[ ]?명', '세[ ]?명', '네[ ]?명', '다섯[ ]?명', '여섯[ ]?명', '일곱[ ]?명', '여덟[ ]?명', '아홉[ ]?명',
     '열[ ]?명', '스무[ ]?명', '서른[ ]?명', '마흔[ ]?명', '쉰[ ]?명', '예순[ ]?명', '일흔[ ]?명', '여든[ ]?명', '아흔[ ]?명'
     ]

b = ['1번째', '2번째', '3번째', '4번째', '5번째', '6번째', '7번째', '8번째', '9번째',
     '10번째', '20번째', '30번째', '40번째', '50번째', '60번째', '70번째', '80번째', '90번째',

     '1째', '2째', '3째', '4째', '5째', '6째', '7째', '8째', '9째',

     '1자리', '10자리', '100자리', '100자리',

     '2수',

     '1개', '2개', '3개', '4개', '5개', '6개', '7개', '8개', '9개', '10개',
     '20개', '30개', '40개', '50개', '60개', '70개', '80개', '90개',

     '1통', '1병',

     '1명', '2명', '3명', '4명', '5명', '6명', '7명', '8명', '9명', '10명', '20명', '30명', '40명', '50명', '60명',
     '70명', '80명', '90명',
     '1가지', '2가지', '3가지', '4가지', '5가지', '6가지', '7가지', '8가지', '9가지', '10가지', '20가지', '30가지',
     '40가지', '50가지', '60가지', '70가지', '80가지', '90가지',
     '1자루', '2자루', '3자루', '4자루', '5자루', '6자루', '7자루', '8자루', '9자루', '10자루', '20자루', '30자루',
     '40자루', '50자루', '60자루', '70자루', '80자루', '90자루',

     '1', '2', '3', '4', '5', '6', '7', '8', '9', '10',

     '1자리', '2자리', '3자리', '4자리', '5자리', '6자리', '7자리', '8자리', '9자리', '10자리', '20자리', '30자리', '40자리',
     '50자리', '60자리', '70자리', '80자리', '90자리',

     '1마리', '2마리', '3마리', '4마리', '5마리', '6마리', '7마리', '8마리', '9마리', '10마리', '20마리', '30마리', '40마리',
     '50마리', '60마리', '70마리', '80마리', '90마리',

     '1개', '2개', '3개', '4개', '5개', '6개', '7개', '8개', '9개', '10개', '20개', '30개', '40개', '50개', '60개', '70개',
     '80개', '90개',

     '1명', '2명', '3명', '4명', '5명', '6명', '7명', '8명', '9명', '10명', '20명', '30명', '40명', '50명', '60명', '70명',
     '80명', '90명'
     ]

dict_ = {}
for i, j in zip(a, b):
    dict_[i] = j

for i, k in zip(['열', '스물', '서른', '마흔', '쉰', '예순', '일흔', '여든', '아흔'], [10, 20, 30, 40, 50, 60, 70, 80, 90]):
    for j, l in zip(['한', '두', '세', '네', '다섯', '여섯', '일곱', '여덟', '아홉'], [1, 2, 3, 4, 5, 6, 7, 8, 9]):
        for n in ['번째', '자리', '마리', '개', '명']:
            #             print(i+'[]?'+j+'[]?' +n, '-->',f'{k+l}'+n)
            dict_[i + '[ ]?' + j + '[ ]?' + n] = f'{k + l}' + n


####################################################################
def func1(a):
    """전부다 numberAGC으로 바꾸고 다시 num1~~"""
    a = re.sub('[0-9]+/[0-9]+|[0-9]*\.[0-9]+|[0-9]+', 'numberAGC', a)
    list_ = re.findall('numberAGC', a)
    for n in range(len(list_)):
        a = re.sub('numberAGC', f'number{n}', a, 1)  # 1번씩만 바꿈

    return a


def func2(x):
    """question에서 -+는 빼고 가져와야함.. 안그러면 numbers가 + or -가 되버림"""
    p = re.compile('[0-9]+/[0-9]+|[0-9]*\.[0-9]+|[0-9]+')
    m = p.findall(x)
    string = ''
    for i in m:
        string += i + ' '
    return string


##### 단어 답도 맞추기 위한 작업#####
def func_name(x, name_):
    """근데 이렇게짜면, 같은 이름이더라도 다른 name으로 저장되네"""
    for n in name_:
        x = re.sub(n, '이름대회', x)
    list_ = re.findall('이름대회', x)
    for n in range(len(list_)):
        x = re.sub('이름대회', f'name{n}', x, 1)

    return x


def func_name2(x, name_):
    """문자를 names 정답으로 저장"""
    string = ''
    for i in name_:
        m = re.search(i, x)
        if m is not None:
            string += m.group() + ' '

    return string


def word2number(x, dict_):
    for d in dict_:
        x = re.sub(d, dict_[d], x)
    return x


def eq2num(x, y):
    """
    x : numbers column
    y : equation column
    대신 number가 앞에 붙으면 바꾸지 않는방식
    """
    temp_ = {x: 'number' + str(n) for n, x in enumerate(x.split())}

    for d in temp_:
        #         y = re.sub('[^number]'+d, temp_[d], y)
        y = re.sub(f'[ ]{d}[ ]', f' {temp_[d]} ', y)

    return y


def eq2name(x, y):
    """
    x : name column
    y : equation column
    대신 number가 앞에 붙으면 바꾸지 않는방식

    """
    temp_ = {x: 'name' + str(n) for n, x in enumerate(x.split())}

    for d in temp_:
        y = re.sub(d, temp_[d], y)
    #         y = re.sub(f'[ ]{d}[ ]', f' {temp_[d]} ', y)

    return y


# p = re.compile('[0-9]+/[0-9]+|[0-9]*\.[0-9]+|[0-9]+')

def pp(tp):
    tp['Question'] = tp['Question'].apply(lambda x: word2number(x, dict_))  # 먼저 한글->숫자로 다바꾸고 시작
    tp['Numbers'] = tp['Question'].apply(lambda x: func2(x))  # 숫자 정답 변환
    tp['Names'] = tp['Question'].apply(lambda x: func_name2(x, name_))  # 문자 정답 변환
    # 순서 제대로 지켜야함.
    tp['Question'] = tp['Question'].apply(lambda x: func1(x))  # numbern으로 변환
    tp['Question'] = tp['Question'].apply(lambda x: func_name(x, name_))  # namen으로 변환

    tp['Equation'] = tp['Equation'].apply(lambda x: f' {x} ')  # 양쪽끝에 스페이스 추가해서 num으로 안바뀌는애들 처리
    tp['Equation'] = tp[['Numbers', 'Equation']].apply(lambda x: eq2num(x[0], x[1]), 1)
    tp['Equation'] = tp[['Names', 'Equation']].apply(lambda x: eq2name(x[0], x[1]), 1)

    # 양끝에 스페이스 없애기
    tp['Equation'] = tp['Equation'].apply(lambda x: x.strip())
    tp['Equation'] = tp['Equation'].apply(lambda x: x.strip())

    return tp

#
# tp = tp.loc[tp['question'].drop_duplicates().index].reset_index(drop=True)#[:8]
#
# tp = tp.drop(['type', 'question', 'equation'], 1)


# kf = KFold(n_splits=5,random_state=2020, shuffle=True)
# tp['fold'] = 0
# for n, (t_idx, v_idx) in enumerate(kf.split(tp)):
#     tp.loc[(v_idx), 'fold'] = n


def start2(path, final_path):
    if os.path.exists(final_path):
        test = pd.read_csv(final_path)
        tp = test.copy()
    else:
        test = pd.read_csv(path)
        test = test.rename(columns={'question': 'Question', 'equation': 'Equation', 'answer': 'Answer'})
        test = pp(test) # 정제된 dataframe

        test.to_csv(final_path, index=False) # 정제된 dataframe을 저장
        tp = pd.read_csv(final_path)

    tp = tp.drop(['Question', 'Equation', 'comment'], 1)
    tp = tp.rename(columns={'Question2': 'Question', 'Equation2': 'Equation', 'answer': 'Answer'})
    tp['Numbers'] = tp['Numbers'].astype('str')
    tp['Names'] = tp['Names'].astype('str')

    kf = KFold(n_splits=10, random_state=2020, shuffle=True)
    # tp['fold'] = 0
    # tp = tp[(~tp['Equation'].str.contains('min'))&(~tp['Equation'].str.contains('max'))&(~tp['Equation'].str.contains('for'))&(~tp['Question'].str.contains('잘못'))].reset_index(drop=True)

    for n, (t_idx, v_idx) in enumerate(kf.split(tp)):
        tp.loc[(v_idx), 'fold'] = n

    return test, tp

def start(path):
    try:
        test = pd.read_csv(path, dtype={'Answer':'str'})
        tp = test.copy()
        print('tye num', tp['Numbers'].dtypes)
        print('tye name', tp['Names'].dtypes)
    except:
        test = pd.read_csv(path.replace('_pp',''))
        #test = test.rename(columns={'question': 'Question', 'equation': 'Equation', 'answer': 'Answer'})
        test = pp(test) # 정제된 dataframe
        test.to_csv(path, index=False)

        tp = test.copy()

        #tp = tp.drop(['Question', 'Equation'], 1)
        #tp = tp.rename(columns={'Question2': 'Question', 'Equation2': 'Equation', 'answer': 'Answer'})


    tp['Numbers'] = tp['Numbers'].astype('str')
    tp['Names'] = tp['Names'].astype('str')


    return test, tp