안녕하세요.
담당 매니저 김수민입니다.
기간제(상주) 프로젝트 희망 근무 시작일을
등록해 주시면, 파트너님의 일정에 맞는
적합한 프로젝트를 추천해 드려요.
플러스
법률 문서에 특화된 OCR(광학 문자 인식) 모델
개발
기타
AI 모델 구축
프로젝트 배경
본 프로젝트는 판례, 심결례, 조서 등 다양한 법률 문서에 특화된 OCR(광학 문자 인식) 모델 개발을 목표로 진행되었습니다. 기존 상용 OCR 솔루션이 존재하지만, 법률 문서의 높은 보안 요구 사항으로 인해 자체 인하우스 모델 구축이 필요했습니다.

또한, OCR로 추출한 텍스트 데이터를 사전 정의된 데이터베이스 형식으로 저장하는 것도 주요 목표였습니다. 예를 들어, 판례의 경우 “주문”, “이유” 등 각 항목을 분리하여 저장함으로써, 단순한 텍스트 추출을 넘어 즉시 활용 가능한 형태로 가공하는 것을 목표로 하였습니다.

*본 프로젝트 내 이미지는 이해를 돕기 위해 가상으로 제작되었습니다.
프로젝트 성과
정확도 99% 이상 달성
- 한국어 법률 문서에서 최고 수준의 정확도를 보이는 모델 개발 완료
데이터 자동 후처리로 고객 요구사항에 맞게 저장
- 요구 사항에 맞춰 데이터를 추출/분류 후 데이터베이스에 저장할 수 있도록 설계 완료
핵심 기능
법률 문서 특화 OCR (광학 문자 인식) 기능
- 한국어 법률 문서에 정확도 99%를 보이는 법률 특화 OCR 모델을 이용할 수 있습니다.
- PDF, Image (JPEG, PNG) 파일 입력 시 텍스트 데이터로 자동 변환해줍니다.
법률 문서 항목에 맞게 자동 데이터 정리
- OCR 처리된 텍스트 데이터를 법률 문서 형태에 맞게 자동 정리합니다.
- 텍스트 내 핵심 문구 (”주문”, “이유” 등), OCR시 사용한 좌표 정보를 결합하여 항목에 맞게 데이터를 분리하고 정리합니다.
진행 단계
데이터 수집 및 분석
2023.01.
- 법률 문서 데이터 수취 및 Bounding Box 라벨링
- 선행연구 학습
모델 설계 및 개발
2023.03.
- OCR 모델 설계 및 개발
데이터 후처리 모듈 개발
2023.03.
- OCR 데이터 저장 후처리 모듈 개발
프로젝트 상세
1. 포트폴리오 소개: 법률 문서에 특화된 OCR(광학 문자 인식) 모델 개발

2. 작업 범위: OCR 모델 개발, 데이터 처리 자동화

3. 주요 업무:
1) 법률 문서 특화 OCR 모델 개발
- 한국어 법률 문서에서 99% 이상의 인식 정확도를 제공하는 OCR 솔루션 구축
2) 다양한 입력 형식 지원
- PDF, 이미지(JPEG, PNG) 파일을 자동으로 텍스트 데이터로 변환
3) 법률 문서 항목별 데이터 정리
- OCR 처리된 텍스트를 “주문”, “이유” 등 법률 문서 형식에 맞춰 자동 분류 및 정리
4) OCR 좌표 기반 데이터 가공
- 텍스트 내 핵심 문구와 좌표 정보를 활용하여 문서 구조에 맞게 저장 및 활용 가능하도록 가공

비슷한 프로젝트를 준비 중이라면?
위시켓 매니저와 상담하세요.

참여 개발사와 미팅 연결

프로젝트 1:1 컨설팅 제공

무료로 프로젝트 등록하기

작업한 파트너 프로필 보기

jo******
개발 · 법인사업자

프로젝트 정보

참여 기간
2023.01. ~ 2023.06.
참여율
참여율이 100%인 프로젝트는 해당 파트너님이 온전히 작업한 결과물입니다.
외부 공동 작업의 경우 기여도에 따라 참여율이 달라지며 역할, 프로젝트 설명을 통해 업무 분야 및 참여 범위를 확인할 수 있습니다.
100%
고객사
비공개 (리걸 테크 업체)
역할
개발
관련 기술
MySQL
Python

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30