[ 졸업프로젝트 ] #210112 문제집 크롭하기
일단 생각보다 진척도가 매우 높다
문제 크롭만 (솔직히 말하면 수능완성 교재만) 1주일+@ 로 계획해 두었는데
크롭+ 덩어리 만들기 방식으로 오늘 어느정도 완성했다.
어제 밤에 저 방식을 시도했을때의 문제점
1. 가운데 경계를 무시하고 덩어리들 끼리 가까우면 한 영역이 되어버린다
2. 위 아래의 무늬(..? 하튼 문제로서의 아무 기능이 없는 부분들)가 영역으로 인식이 된다
개선 아이디어
1. 위 아래 부분을 필요한 부분 외에 crop (문제집의 형식상 위아래 여백은 크게 변하지 않는다)
2. 가운데 라인을 기준으로 왼쪽 영역, 오른쪽 영역으로 나누어서 input으로 사용한다
양쪽여백 크롭
오른쪽 중앙의 " 확률과 통계" 부분이 문제
얘도 영역으로 포함되거나 개별 영역을 차지하는 경우가 있었다.
+데이터 용량 면에서도 얼마나 유의미할지는 모르겠지만 일단 사이즈를 줄이는 부분에서 어느정도 이득이 있을것이라 판단했다.
뒤의 실전 모의고사 부분의 위 여백은 개념편 여백과 다르어서 일단은 두 파트를 모두 자르게 영역을 지정했다.
페이지 수는 파일명에서
페이지는 데이터베이스에 같이 넣기로 했어서 필요한데 일단 영역 인식에서는 이용하지 않고 파일명을 통해 얻기로 했다.
(pdf to png에서 페이지수 ==파일명 뒤의 숫자인건 정말 🍯)
-> 크롭 자체는 이제 거의 되었으나 이게 문제 인지? 아닌지?를 판단하기 위해
pytesseract를 이용했다.
pytesseract를 통해 숫자, 한글, 영어 인식
시도한 방식은 왼쪽과 오른쪽의 크롭된 문제를 pytesseract를 이용해 인식
-> 왼쪽은 15 ~~~ 이런식으로 나오고 오른쪽은 돋보기 모양을 인식하든가 말든가,,
유형4든 뭐든간에 첫 인식된 문자 type이 int가 아니면 문제가 아니라고 판단하는 방식
시도는 좋았으나 오류가 많이 있는 듯하다.
내일 할일
아마도 숫자인식 부분은 폰트나 여백이 문제인듯하다.
tesseract 학습을 시도해보자!
* 참고할 자료
blog.naver.com/PostView.nhn?blogId=beodeulpiri&logNo=221615329276
그래도 오늘 이만큼이나 하다니 기대이상이다 😘
눈사람하고 사진도 찍었다.
신촌의 대표 흉물..눈사람으로 너를 임명할게...🦭