졸업프로젝트 🎓/Progress Report 📝

[ 졸업프로젝트 ] #210112 문제집 크롭하기

컴공생 C 2021. 1. 13. 00:02
반응형

일단 생각보다 진척도가 매우 높다

문제 크롭만 (솔직히 말하면 수능완성 교재만) 1주일+@ 로 계획해 두었는데 

크롭+ 덩어리 만들기 방식으로 오늘 어느정도 완성했다.

 

어제 밤에 저 방식을 시도했을때의 문제점

1. 가운데 경계를 무시하고 덩어리들 끼리 가까우면 한 영역이 되어버린다

2. 위 아래의 무늬(..? 하튼 문제로서의 아무 기능이 없는 부분들)가 영역으로 인식이 된다

 

개선 아이디어

1. 위 아래 부분을 필요한 부분 외에 crop (문제집의 형식상 위아래 여백은 크게 변하지 않는다)

2. 가운데 라인을 기준으로 왼쪽 영역, 오른쪽 영역으로 나누어서 input으로 사용한다

 

 

양쪽여백 크롭

오른쪽 중앙의 " 확률과 통계" 부분이 문제

얘도 영역으로 포함되거나 개별 영역을 차지하는 경우가 있었다.

+데이터 용량 면에서도 얼마나 유의미할지는 모르겠지만 일단 사이즈를 줄이는 부분에서 어느정도 이득이 있을것이라 판단했다.

 

뒤의 실전 모의고사 부분의 위 여백은 개념편 여백과 다르어서 일단은 두 파트를 모두 자르게 영역을 지정했다.

 

페이지 수는 파일명에서

페이지는 데이터베이스에 같이 넣기로 했어서 필요한데 일단 영역 인식에서는 이용하지 않고 파일명을 통해 얻기로 했다.

(pdf to png에서 페이지수 ==파일명 뒤의 숫자인건 정말 🍯)

 

-> 크롭 자체는 이제 거의 되었으나 이게 문제 인지? 아닌지?를 판단하기 위해

pytesseract를 이용했다. 

 

 

 

pytesseract를 통해 숫자, 한글, 영어 인식

문제(좌) 와 문제로 인식하면 안되는 문제(우)

시도한 방식은 왼쪽과 오른쪽의 크롭된 문제를 pytesseract를 이용해 인식

-> 왼쪽은 15 ~~~ 이런식으로 나오고 오른쪽은 돋보기 모양을 인식하든가 말든가,,

유형4든 뭐든간에 첫 인식된 문자 type이 int가 아니면 문제가 아니라고 판단하는 방식

 

시도는 좋았으나 오류가 많이 있는 듯하다.

 

내일 할일

아마도 숫자인식 부분은 폰트나 여백이 문제인듯하다.

tesseract 학습을 시도해보자!

* 참고할 자료

blog.naver.com/PostView.nhn?blogId=beodeulpiri&logNo=221615329276

 

[Tesseract-OCR] 언어데이타 학습시키기 with jTessBoxEditor

자동차 번호판을 추출하여 Tesseract-OCR에 인식시켜보니 엉뚱하게 인식하는 경우가 많았다. 한글 인식...

blog.naver.com

 

그래도 오늘 이만큼이나 하다니 기대이상이다 😘

눈사람하고 사진도 찍었다.

신촌의 대표 흉물..눈사람으로 너를 임명할게...🦭

반응형