[ 졸업프로젝트 ] #210112 문제집 크롭하기

졸업프로젝트 🎓/Progress Report 📝

[ 졸업프로젝트 ] #210112 문제집 크롭하기

컴공생 C 2021. 1. 13. 00:02

일단 생각보다 진척도가 매우 높다

문제 크롭만 (솔직히 말하면 수능완성 교재만) 1주일+@ 로 계획해 두었는데

크롭+ 덩어리 만들기 방식으로 오늘 어느정도 완성했다.

어제 밤에 저 방식을 시도했을때의 문제점

1. 가운데 경계를 무시하고 덩어리들 끼리 가까우면 한 영역이 되어버린다

2. 위 아래의 무늬(..? 하튼 문제로서의 아무 기능이 없는 부분들)가 영역으로 인식이 된다

개선 아이디어

1. 위 아래 부분을 필요한 부분 외에 crop (문제집의 형식상 위아래 여백은 크게 변하지 않는다)

2. 가운데 라인을 기준으로 왼쪽 영역, 오른쪽 영역으로 나누어서 input으로 사용한다

양쪽여백 크롭

오른쪽 중앙의 " 확률과 통계" 부분이 문제

얘도 영역으로 포함되거나 개별 영역을 차지하는 경우가 있었다.

+데이터 용량 면에서도 얼마나 유의미할지는 모르겠지만 일단 사이즈를 줄이는 부분에서 어느정도 이득이 있을것이라 판단했다.

뒤의 실전 모의고사 부분의 위 여백은 개념편 여백과 다르어서 일단은 두 파트를 모두 자르게 영역을 지정했다.

페이지 수는 파일명에서

페이지는 데이터베이스에 같이 넣기로 했어서 필요한데 일단 영역 인식에서는 이용하지 않고 파일명을 통해 얻기로 했다.

(pdf to png에서 페이지수 ==파일명 뒤의 숫자인건 정말 🍯)

-> 크롭 자체는 이제 거의 되었으나 이게 문제 인지? 아닌지?를 판단하기 위해

pytesseract를 이용했다.

pytesseract를 통해 숫자, 한글, 영어 인식

문제(좌) 와 문제로 인식하면 안되는 문제(우)

시도한 방식은 왼쪽과 오른쪽의 크롭된 문제를 pytesseract를 이용해 인식

-> 왼쪽은 15 ~~~ 이런식으로 나오고 오른쪽은 돋보기 모양을 인식하든가 말든가,,

유형4든 뭐든간에 첫 인식된 문자 type이 int가 아니면 문제가 아니라고 판단하는 방식

시도는 좋았으나 오류가 많이 있는 듯하다.

내일 할일

아마도 숫자인식 부분은 폰트나 여백이 문제인듯하다.

tesseract 학습을 시도해보자!

* 참고할 자료

blog.naver.com/PostView.nhn?blogId=beodeulpiri&logNo=221615329276

[Tesseract-OCR] 언어데이타 학습시키기 with jTessBoxEditor

자동차 번호판을 추출하여 Tesseract-OCR에 인식시켜보니 엉뚱하게 인식하는 경우가 많았다. 한글 인식...

blog.naver.com

그래도 오늘 이만큼이나 하다니 기대이상이다 😘

눈사람하고 사진도 찍었다.

신촌의 대표 흉물..눈사람으로 너를 임명할게...🦭

'졸업프로젝트 🎓 > Progress Report 📝' 카테고리의 다른 글

#210217 많은 일이 일어났다 (0)	2021.02.17

현재글[ 졸업프로젝트 ] #210112 문제집 크롭하기

컴공 도비의 공부기록📓👩🏻‍💻

주피터서버 구축, 서울대 컴공, 우분투 서버 콘다설치, 자료구조, 리액트네이티브, React Native, 서울대 컴공 심층면접, 화이자백신, 서울대 컴공 대학원 기출, mimic3, ubuntu 버전확인, 서버 Jupyter notebook, 원격서버에 Jupyter 설치, 우분투 버전확인, 우분투 22.04, 원격서버 접속 세팅하기, 2022 서울대 컴공 기출, 2022학년도 서울대 컴공 심층면접, 서울대 컴퓨터공학과 기출문제, 원격서버 주피터 노트북,

컴공생 C