KAIST 이상엽·김현욱 교수 공동연구팀, EC 번호 예측하는 'DeepEC' 개발
바이오 빅데이터에 딥러닝 적용···예측 속도·예측 가능 범위·정확성 ↑

KAIST(총장 신성철)는 생명화학공학과 이상엽 특훈교수와 김현욱 교수의 초세대 협업연구실 공동연구팀이 딥러닝 기술로 효소의 기능을 신속하고 정확하게 예측하는 컴퓨터 방법론 'DeepEC'를 개발했다고 2일 밝혔다.

EC 번호(enzyme commission number)는 효소 기능을 표기하는 대표적인 시스템으로, 효소가 매개하는 생화학반응의 종류에 따라 총 4개의 숫자로 구성된다. EC 번호를 통해 해당 효소가 어떤 종류의 생화학반응을 매개하는지 알 수 있기 때문에 효소 단백질 서열의 EC 번호를 예측하는 기술은 효소 및 대사 관련 문제를 해결하는 데 중추적인 역할을 한다.

예를 들어 'EC 3.4.11.4'에서의 'EC 3', 'EC 3.4', 'EC 3.4.11', 'EC 3.4.11.4'는 각각 '가수 분해 효소', '펩타이드 결합에 작용하는 가수 분해 효소', '폴리펩타이드의 말단 아미노산을 자르는 가수 분해 효소', '트라이펩타이드의 말단 아미노산을 자르는 가수 분해 효소'를 의미한다.

그동안 EC 번호를 예측하는 컴퓨터 방법론들이 10개 이상 개발됐으나, 예측 속도·정확성·예측 가능 범위 측면에서 발전 필요성이 제기됐다. 이에 공동연구팀은 138만8606개의 단백질 서열과 EC 정보를 담은 바이오 빅데이터에 딥러닝 기술을 적용시켜 빠르고 정확하게 EC 번호를 예측하는 DeepEC를 개발했다.

DeepEC는 3개의 합성곱 신경망(Convolutional neural network)을 주 예측기술로 사용해 주어진 단백질 서열의 EC 번호를 예측하지만, 예측에 실패했을 경우에는 서열정렬(sequence alignment)을 이용한다.

연구팀은 단백질 서열의 도메인과 기질 결합 부위 잔기에 인위적으로 변이를 줬을 때, DeepEC가 가장 민감하게 영향을 감지한다는 사실도 확인했다. 또한 DeepEC를 인체 대사 컴퓨터 모델링에 적용했을 때 이전에는 인체 대사모델에 반영되지 않았던 212개의 생화학반응도 새로 발견했다.

DeepEC는 다양한 질병 발생 원리를 밝혀내고 방대한 게놈 정보에서 효소들의 기능을 빠르고 정확하게 예측하는 데 크게 기여할 것으로 예상된다. 

이상엽 특훈교수는 "DeepEC를 통해 지속적으로 재생되는 게놈 및 메타 게놈의 방대한 효소 단백질 서열의 기능을 정확히 알아낼 수 있게 됐다"며 의의를 밝혔다.

김현욱 교수는 "이전에 발표된 5개의 EC 번호 예측 방법론과 비교했을 때 DeepEC의 단백질 번호 예측 성능이 가장 뛰어나고 빨랐다"고 언급하며 "앞으로의 효소기능 연구에 기여하길 바란다"고 덧붙였다.

공동연구팀 류재용 박사가 1저자로 참여한 이번 연구결과는 국제학술지 '미국 국립과학원 회보(PNAS)' 6월 20일 자 온라인 판에 게재됐다. 논문명은 'Deep learning enables high-quality and high-throughput prediction of enzyme commission numbers'이다.

DeepEC를 개발한 이상엽 특훈교수와 김현욱 교수. <사진=KAIST 제공>
DeepEC를 개발한 이상엽 특훈교수와 김현욱 교수. <사진=KAIST 제공>

DeepEC를 이용한 효소 기능 EC 번호 예측 과정. <사진=KAIST 제공>
DeepEC를 이용한 효소 기능 EC 번호 예측 과정. <사진=KAIST 제공>
저작권자 © 헬로디디 무단전재 및 재배포 금지