[Tensorflow] Training data와 label을 하나의 파일로 만들어서 로드하는 방법

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Austin's_Lab

[Tensorflow] Training data와 label을 하나의 파일로 만들어서 로드하는 방법 본문

Machine Learning

[Tensorflow] Training data와 label을 하나의 파일로 만들어서 로드하는 방법

Ausome_(Austin_is_Awesome) 2017. 4. 3. 16:01

-Tensorflow 0.12.0사용 on Ubuntu 14.04-

저번 포스팅에서는 class별로 서로 다른 directory에 데이터를 놓고 각 directory를 통째로 load했었다. 이렇게 불러오니까 각 batch마다 하나의 class만 들어있게 되어서 뭔가 찝찝한 느낌을 지울 수 없었다. class가 10개이고 batch size가 32라면 batch 10개를 한 번씩 번갈아가면서 돌려야 모든 class에 대해 각 이미지 32장이 한 번씩 학습이 된다는 것이다. 학습에 너무 정형화된 패턴이 생겨버리면 왠지 안 좋을 것 같고, batch마다 각 class에 알맞게 학습되었던 weight이 다음 batch때는 다른 class에 맞게 다시 쏠려서 학습을 방해할 것 같은 기분. 물론 여러개의 batch에 대해서 일일이 한 번씩 돌려줘야하기 때문에 코드도 길고 지저분해진다. batch가 여러개니까 쓸데없이 메모리 사용량이 늘어나는건 당연한 문제. 무엇보다 각 batch마다 같은 class만 존재한다면 mini-batch의 의미가 없을 것 같았다(그냥 ML초보의 개인적인 생각. 느낌에 가깝다). 그래서 아예 training data를 load할 때 data를 섞어서 load하는 방법이 대해 찾다가, Cifar-10 예제였나 inception 예제였나 여튼 Tensorflow 예제에서 힌트를 얻었다.

어떻게 구현하느냐는 개인 취향이겠지만, 내가 구현한 logic은 이렇다.

1. 각 directory에는 class별로 학습시킬 데이터만 있다.

2. 각 directory별로 들어있는 training data들의 list와 매칭되는 label을 파일에 기록한다.(txt, cvs, ...) 나는 txt로 했다.

3. 각 directory 별로 순서대로 진행했다면 파일들이 class별로 뭉쳐있을테니 이 리스트를 다시 섞어준다. (사실 이건 나중에 batch를 만들면서 shuffle 옵션을 true로 주면 섞이는데, 그게 제대로 안 섞일까봐 임의적으로 몇 번 섞어주고, batch를 만들 때도 shuffle을 진행했다.)

4. Tensorflow에서 list가 들어있는 txt file을 읽고, 파일 이름과 label을 하나의 batch로 만든다.

5. session을 만들어 돌린다.

하나씩 차례대로 살펴보겠다.

1. 각 directory에는 class별로 학습시킬 데이터만 있다.

말 그대로이다. directory의 이름이 class1이라면 class1 directory안에는 class1의 training data 외에는 그 어떤 파일도 없다. 이것은 나중에 각 directory에 있는 파일들을 하나의 txt file로 만들어줄 때, training data이외의 파일에 대한 예외처리를 하기 귀찮기 때문에 미리 예외 사항들을 제거한 것이다.

2, 3 각 directory 별로 들어있는 training data들의 list와 매칭되는 label을 파일에 기록하고 섞어준다.

여기서부터는 별도의 프로그램을 만들었다. python의 내장함수 os.walk를 이용하여 directory에 존재하는 파일들의 이름을 txt file에 기록하고, 해당 directory의 class도 마찬가지로 함께 기록해준다. 이후 리스트를 섞어주기 위해 training data들을 기록했던 txt file을 다시 열어 random 모듈의 shuffle 함수를 사용해준다.

import random, os

### txt file의 이름을 변수로 저장
file_name = 'file_list.txt'  
### txt file을 쓰기모드로 연다
f = open(file_name, 'w') 
### training data들이 들어있는 directory 위치까지의 절대경로를 root라는 변수에 저장한다.
root = 'training_file_path'

### 각 directory 별로 txt file에 list를 추가해주는 함수.
def make_list(path, label) :
    ## # path(directory)에 존재하는 모든 파일들의 이름이 files에 저장된다.
    for _, __, files in os.walk(root+path):   
        for file in files :       
            ### file의 이름과 class의 label을 공백(띄어쓰기)로 구분지어 문자열로 만들고 저장한다.
            crop = root + path + '%s '  % file + '%d\n' % label 
            f.write(crop)

### 모든 training data들에 대해 list에 추가해주는 작업을 한다.
make_list('training_data_directory', label)
make_list('training_data2_directory', label2)

f.close()
f = open(file_name, 'r')  # list를 섞어주기위해 다시 읽기모드로 연다.
lines = f.readlines() # line by line으로 모든 line을 읽는다.
random.shuffle(lines) # random module의 shuffle 함수를 쓴다.
f.close()

f = open(file_name, 'w') # 섞은 list를 다시 쓰기위해 쓰기 모드로 연다
for line in lines: 
    f.write(line)  # 모든 라인을 쓴다.
f.close()

위 코드를 사용하여 training data에 대한 list를 만들면 이런 식으로 나온다.

root/path/file_name.jpg 0

root/path2/file_name2.jpg 2

root/path5/file_name5.jpg 5

...

이제 이 리스트를 Tensorflow에서 load해서 쓰면 된다.

4. Tensorflow에서 list가 들어있는 txt file을 읽고, 파일 이름과 label을 하나의 batch로 만든다.

이제 만들어진 txt file을 Tensorflow에서 읽어서 쓰면 된다. 앞서 말했듯 tensorflow 예제를 응용했다. 원래는 역할별로 잘 쪼개져있었는데 함수이름 하나로 부르는 게 깔끔해보여서 그냥 하나로 뭉쳐버렸다.

import tensorflow as tf
import numpy as np
from tensorflow.python.framework import ops
from tensorflow.python.framework import dtypes
import matplotlib.pyplot as plt
import copy

flags = tf.app.flags
FLAGS = flags.FLAGS
flags.DEFINE_string('training_set', './training_set_list.txt', 'traning data list')
flags.DEFINE_integer('NoC', 10, 'the number of classes')
flags.DEFINE.integer('batch_size', 32, 'batch_size')

### queue에 있는 file list에서 load할 이미지를 불러오는 부분
def read_images_from_disk(input_queue):
    ### queue[0] = name of images / queue[1] = labels of images
    label = input_queue[1]
    ### queue의 내용을 읽어서 image의 내용을 불러온 뒤, jpeg형식으로 디코딩.
    file_contents = tf.read_file(input_queue[0])
    example = tf.image.decode_jpeg(file_contents, channels=3)
    ### 원래 이미지의 모양으로 만들어줌. 128x128x3
    example.set_shape([128, 128, 3])
    return example, label

### txt file에서 data와 label을 구분짓고, 배치를 만들어 반환하는 부분
def read_images_from_list(image_list_file) :
    ### list가 들어있는 txt file을 열고 각 file name과 label이 저장될 빈 list를 만듬
    f = open(image_list_file, 'r')
    filenames = []
    labels = []
    ### label이 될 list의 초기화. label은 list형태로 존재, 본인이 속한 class의 index만 1 나머지는 0
    arr = [0 for _ in range(FLAGS.NoC)]
    ### 각 라인을 읽어나가며 image name과 label을 저장
    for line in f :
        ### txt file에 image name과 label을 공백으로 구분했으므로 공백을 기준으로 image와 label을 나눔.
        filename, label = line[:-1].split()
        filenames.append(filename) # image 이름 list에 저장
        ### 해당 class의 index만 1로 설정(label 설정) txt file에는 숫자로 입력되어 있으므로 list형식으로 변환해줘야함
        arr[int(label)] = 1
        tmp = copy.deepcopy(arr) # list deep copy
        labels.append(tmp) # label list에 저장
        arr[int(label)] = 0 # 임시 label초기화
    f.close()
    ### list로 만든 image와 label정보를 tensor 형식으로 변환
    images = ops.convert_to_tensor(filenames, dtype = dtypes.string)
    img_labels = ops.convert_to_tensor(labels, dtype = dtypes.int32)
    ### image와 label을 한 쌍씩 짝지어 queue로 만듬. 여기서 한번 더 섞임
    input_queue = tf.train.slice_input_producer([images, img_labels], num_epochs=None, shuffle=True)
    ### 만든 queue에서 실제 이미지 정보를 뽑아옴
    image_list, label_list = read_images_from_disk(input_queue)
    ### 뽑아온 이미지 정보와 label을 다시 한 쌍씩 짝지어 batch를 만듬. 여기서 shuffle_batch를 써도 섞임. 
    image_batch = tf.train.batch([image_list, label_list], batch_size=FLAGS.batch_size)
    return image_batch

image_batch= read_images_from_list(FLAGS.training_set)
### 사실 예제에서는 좀 더 세분화 돼있었는데 한번에 불러오려고 아예 하나로 뭉쳐버림

5. Session을 만들어 돌린다.

이제 training image가 제대로 불러졌는 지 확인해 볼 차례이다. session을 만들고 queue를 돌리기 위한 thread를 만들어 돌리면 된다. image와 label이 제대로 매치되어 load되었는 지 확인해보기 위해 pyplot을 활용한다.

'Machine Learning' 카테고리의 다른 글

[Tensorflow] Facial expression recognition using adaptive VGGnet19 model(2) (0)	2017.07.18
[Tensorflow] Facial expression recognition using adaptive VGGnet19 model(1) (0)	2017.07.18
[Tensorflow] Training data를 load하는 방법과 model을 save하다 발생한 문제 (0)	2017.03.16

공유하기 링크

페이스북
카카오스토리
트위터

'Machine Learning' Related Articles

Comments

Austin's_Lab

[Tensorflow] Training data와 label을 하나의 파일로 만들어서 로드하는 방법 본문

[Tensorflow] Training data와 label을 하나의 파일로 만들어서 로드하는 방법

'Machine Learning' 카테고리의 다른 글

티스토리툴바