본문 바로가기
IT 와 Social 이야기

[iitp] 농업 분야 인공지능을 위한 데이터 구축

by manga0713 2018. 8. 17.

 

[자동화된 인공지능 학습용 데이터 추출]

 

 

 

 

*** 출처: [iitp] 농업 분야 인공지능을 위한 데이터 구축 - 정휘웅 수석, 조용빈 팀장

*** 문서:

file4947737572933786518-185901.pdf

 

 

 

 

 

I. 서론

 

- 농업 분야는 개인정보가 없으며 수집이 쉽고 활용도가 매우 넓으므로 최근 인공지능을 적용하기 위한 연구가 가장 활발하게 이루어지고 있다.

 

- 농업 분야 인공지능의 학습 과정의 지원을 위해서는 방대한 분량의 정제된 기반 자료와 이를 통해 얻고자 하는 답을 미리 정해둔 정교한 데이터 세트가 필요하다.

 

- 농업이나 기타 산업 분야에서는 최적화된 답을 기계가 정의할 수 없으므로 사람의 힘을 빌려 각 결과에 적합한 데이터 세트를 만들어두어야 한다.

 

- 예를 들어, 특정 작물에 대한 인공지능 최적화를 하는 경우, 그 최종 결과물 목표가 최소 생산비용인지, 최고 품질인지, 최다 생산량인지 등에 대한 인간의 희망사항을 인공지능이 결정할 수 없으므로 이 각각의 환경에 대한 데이터 세트가 어느 정도 마련되어 있어야 한다. 각 학습 단계에서 추출된 최적화된 값들은 인간이 최종적으로 판단할 수밖에 없다.

 

 

 

II. 농업 인공지능 해외사례와 활용 방안

 

 

1. 해외사례 분석

 

- 미국을 비롯한 선진국은 농업 로봇, 작물 및 토양 모니터링, 예측 분석의 세 분야에서 인공지능을 적극적으로 도입하고 있다.

 

 

○ 농업 로봇

 

- 인간 작업자보다 작물을 더 많이 더 빠른 속도로 수확하는 등의 필수 농업 작업을 처리하는 자율 로봇을 개발하고 있다.

 

- 미 Blue River Technology는 시각인지시스템을 통해 잡초에 정확히 제초제를 살포하는 See Spray 로봇을 통해 제초제 살포량을 80% 줄이고 비용은 90% 이상 줄였다고 밝혔다.

 

 

○ 작물 및 토양 모니터링

 

- 컴퓨터 시각인지 및 심층 학습 알고리즘을 활용하여 농민이나 무인항공기가 촬영한 데이터를 소프트웨어로 처리하여 작물 및 토양의 건강을 측정하고 모니터링하는 기술

 

- 독일, PET사의 Plantix, 토양의 잠재적 결함과 영양결핍 발견, 잎사귀를 촬영한 데이터를 국가별로 수집된 다양한 데이터와 비교하여 해충이나 질별을 사전에 감별하는 기술 개발 진행 중

 

 

○ 예측 분석

 

- 미국, aWhere사, 질병 및 해충의 존재를 날씨 정보에서 예측하는 서비스 제공

 

 

 

2. AI가 농업에 도움을 줄 수 있는 곳

 

- 인간이 처리하기 어렵거나 시간이 많이 필요한 반복적인 작업에 해법을 제공할 수 있다.

 

 

○ 작물과 병해충 감별

 

- 작물별 병해충의 종류는 매우 다양하며 그 진행 양상도 다르다. 잎의 특성에 따라 병에 대한 정보를 추적하는 방법이 많이 개발되고 있으나 그 질병 수가 문제이다.

 

- 해외의 경우 잎의 수맥 형태를 통해 작물의 유전학적 근원을 추적할 수 있는 기술도 개발되었다.

 

 

○ 초기 감염 측정

 

- 특정 밭이나 일부 작물에 인간의 눈으로 확인 가능한 수준의 감염이 일어나는 경우 이미 그 구역의 작물 대부분에 병해충이 번져 피해를 복구하기 어려운 경우가 매우 많이 발생한다.

 

- Kamlesh(2018)는 최근 초분광카메라와 뉴럴 네트워크를 통한 학습 알고리즘을 이용하여 질병의 사전 징후를 발견할 수 있다고 주장

 

 

○ 작물 발육상황 감지

 

- 발육상태를 감지함으로 수확 시기를 자동으로 확인할 수 있고, 로봇이 판매에 적합한 크기와 생육 상태를 확인하여 자동으로 수확할 수도 있다.

 

- 미국, 애그리보틱스(Agribotix)와 프리시전호크(PrecisionHawk)사는 드론이나 센서를 통한 작물 상태 분석 기술 보유

 

 

 

III. 농업 분야 인공지능을 위한 기반 데이터 구축

 

 

1. 사진데이터의 구축과 데이터 인프라 구축

 

- 가장 많이 활용될 수 있는 분야는 사진으로 촬영된 정보의 학습이 될 것이다.

 

- 기초 데이터의 배경이 다르고, 해상도도 낮은 경우 학습 환경에 활용되기에는 어려움이 많다.

 

- 또한 국내에서는 관련 메타데이터의 수도 부족한 편

 

- 예를 들어, 하나의 단계 혹은 동일 질병에 대해서 각각 단계별로 적정 수준의 이미지를 수집하기 위해서는 각도, 광량 등에 따른 세부적인 정보가 함께 확보되어야 한다.

 

 

○ 개별 질병별로 15건의 이미지를 수집한다고 가정 할 때, 데이터별로 포함되어야 하는 메타데이터 분류

 

- 작물의 종류: 어떤 작물인지에 대한 기본 어휘 정보, 학명을 기준으로 하여 영어, 한국어 등 다국어로 구성될 수 있다.

 

- 품종의 종류: 어느 품종인지를 설명해야 한다. 사과의 수백 종류의 품종이 있으며, 계속 개량종이 등장하고 있다.

 

- 질병의 종류: 각 질병의 라이브러리 수만큼이나 학습 데이터가 축적되어 있어야 한다.

 

- 질병 진척 단계에 따른 이미지: 질병이 진척됨에 따라서 정도가 다를 수 있으므로 해당 현상에 대한 촬영이 필요하다. 수집이 가능한 경우 각 단계에 대한 적합한 사진 정보들이 촬영되고 메타정보에 기록되어야 한다.

 

- 촬영 해상도: 촬영 해상도에 따라서 고해상도, 중해상도, 저해상도롤 구분해야 한다.

 

- 촬영 날짜와 시간: 날짜와 시간에 따라서 해당 시간에 채광량이 다를 수 있으므로 구분해야 한다.

 

- 촬영장소: 잎이나 과일 하나만을 떼어서 하거나 실제 농장에서 촬영하는 방법으로 분리될 수 있어야 한다.

 

- 폭, 넓이, 크기: 그 크기를 측정할 수 있는 표준화된 측량정보가 제공되어야 한다.

 

- 실루엣 영역정보와 분광 촬영 정보: 흑과 백으로 구분된 실루엣 정보로 제공되는 잎 구분 정보 등은 인공지능시스템이 잎을 우선적으로 추적하는 등의 어려운 정보 탐색 과정을 거치지 않고 빠르게 현상을 파악하는데 도움을 줄 것이다. 아울러 분광 촬영 정보는 병해충, 발육상태 등과 관련된 초기 데이터를 구축하고 관련된 정보를 제공하는 데 도움을 줄 수 있을 것이다. 이는 기본 사진 촬영 정보와 연계되어 함께 제공되어야 할 것이다.

 

※ 메타 데이터 세트를 기준으로 촬영되어야 하는 데이터의 수

 

- 2개의 작물, 4개의 품종, 6개의 질병, 각 질병별 6개의 단계, 3가지의 촬영 해상도, 4개 날짜, 12시간, 3가지 날씨, 이에 대한 학습과 테스트 데이터(2가지 유형), 유형별 유효 학습 데이터 15개, 촬영 장소 2개를 고려한다면 총 7,464,960건의 이미지를 촬영해야 하며 각각에 대한 메타데이터가 입력되어야 한다.

 

- 여기에 실루엣 정보와 분광 관련 정보가 추가된다면 더 큰 분량의 정보들이 함께 저장되어야 한다.

 

- 촬영된 정보에 대해서 어떤 병이며 단계가 어떤 상태인지는 전문가의 판별 작업이 함께 이루어져야 한다.

 

- 따라서 이에 대한 병해충 정보 등에 대한 전문가 지식이 함께 입력되어야 한다.

 

 

2. 측정 데이터의 저장소

 

- 농업에서 인공지능시스템이 최적화된 값을 찾기 위해서는 최적화된 사례를 찾아서 모범 데이터 세트를 만들어야 하며, 아울러 최악의 결과를 낳은 데이터 세트 역시 만들어서 이들을 함께 고려해야 한다.

 

- 각각 기상상태, 온도상태, 습도상태 등에 대한 시계열 기반의 데이터 세트가 만들어져야 한다.

 

 

3. 전문 용어 및 의미망 데이터

 

- 해당 사진에 대한 정보들이 명확하게 입력되어야 농업 종사들이 어떤 조처를 할 수 있고 앞으로 어떻게 상황이 플러 갈 것인지에 대해 예측하고 대응책을 세울 수 있을 것

 

- 사과의 예를 들면, '홍로', '스타크림슨', '스퍼어리 브레이즈' 등과 같은 사과 품종 이름들의 정보가 라이브러리에 명확하게 기재가 되어 있고, 과실과 잎 정보들에 대해서 표준화된 정보 구조가 만들어져 있어야만 온전한 인공지능 기반 데이터 세트로서 역할을 할 수 있을 것

 

 

 

IV. 향후 개발되어야 할 기술들

 

 

1. 데이터 구축의 간소화 및 자동 인덱싱

 

2. 표준화된 데이터 저장소와 오픈 데이터