AI 기반 단백질 구조 예측 및 단백질 설계

31022 한보현단백질이란생물 중에서 단백질은 구조를 이루고 항체, 효소 등 다양한 기능을 하는 중요한 물질입니다.단백질의 단위체는 아미노산인, 아미노산과 아미노산은 펩티드 결합으로 연결됩니다.펩티드 결합에 의해서 아미노산이 연쇄에 오래 이어지면, 폴리 펩티드라고 부릅니다.폴리 펩티드가 아미노산 약 100개 이상으로 구성되며, 분자량이 몇 만 이상의 경우 이를 단백질이라고 합니다.폴리 펩티드는 길게 이어지는 형태의 주쇄과 주쇄로 삐져나온 옆 사슬로 되어 있습니다.주사 스루는 모든 단백질로 같고, 옆 사슬의 산 염기, 친수성의 정도, 크기 등에 의해서 단백질의 구조 물리적 화학적 성질이 다릅니다.단백질은 구조에 의해서 그 기능이 정해집니다.단백질은 의약품 등 여러 분야에서 유용하게 사용됩니다.이번 글에서는 단백질 구조 예측 및 설계에서의 AI의 역할과 발전을 간단하게 소개합니다.단백질 구조 예측 단백질을 분자 수준에서 잘 활용하려면 단백질 구조를 파악하는 것이 중요합니다.예를 들면 의약품의 경우 단백질로 구성된 수용체와 약물이 결합하고 약물의 효과를 나타낼 수 있습니다.예를 들면 수용체의 입체적인 구조와 결합 부위의 화학적 성질을 알면 그 구조에 알맞은 약물을 디자인할 수 있을까요.로는 단백질의 구조는 어떻게 알 수 있을까요?최초의 단백질 구조 분석 법으로는 단백질 결정에 X레이를 조사하고 산란과 회절을 통해서 입체 구조를 분석하는 X선 결정 구조 해석이 있었습니다.이후 단백질 구조 분석 법은 핵자기 공명 분석 법(NMR분광학), 아미노산 서열을 통해서 단백질 구조를 분석하는 계산 생물학으로 발전되어 왔습니다.요즘은 AI의 발전으로 단백질 구조 예측이 보다 빠르고 정확하게 되었습니다.구글 딥 마인드의 알파 폴드(2020)은 그 사례의 하나입니다.알파 폴드는 2년마다 열리는 단백질 구조 예측 대회에서 2018년 2020년 압도적 점수로 1위를 차지하는 구조가 알려지지 않은 2억개의 단백질 구조를 계산하고 공개했습니다.또 하나의 단백질 구조 예측 AI인 로제타 폴드(Rossettafold, RF)은 2021년 사이언스에서 가장 혁신적인 연구 성과에 선정되었습니다.AI베이스의 단백질 구조 예측은 많은 연구자가 사용하고 있으며 단백질 구조 예측 기술은 새로운 단백질 설계 기술과도 많은 관련성이 있으므로 단백질 구조 예측 기술의 비약적 발전에 따른 새로운 단백질 설계도 보고되고 있다고 합니다.인공 단백질 설계 인공 단백질은 인류에 필요한 기능을 가진 단백질을 인공적으로 설계하고 만들어 활용하는 첨단 바이오 기술의 일입니다.기존의 단백질 설계 방식은 자연에 존재하는 단백질의 아미노산 배열을 일부 변경하고, 구조와 기능을 변화시키는 것입니다.계산 단백질의 설계는 생물 물리학적 및 생화학적 원리에 근거하고 있으며 컴퓨터 프로그램과 알고리즘을 이용합니다.전산 단백질 설계는 일반적으로 알려진 구조에서 시작되고 활성 부위를 유지하고 서열의 일부를 수정키로 미리 정의된 구조에 부러지고 원하는 기능을 가진 아미노산 서열 설계를 목표로 합니다.이에 의한 단백질의 안정성을 향상시키고 구조에 맞는 최적의 아미노산 배열을 찾으려고 노력합니다.이런 인공 단백질의 설계는 물론 유용하지만 원하는 단백질과 유사한 거푸집을 가진 단백질에 자연스럽게 존재하지 않으면 원하는 단백질을 만들지 못하고 있다고 해도 특성과 기능 변화의 제한이 있습니다.또 정확도가 낮은 에너지와 열역학의 관점에 중점을 두고 고난도의 실험 기법을 요구하는 소수 그룹에 의해서만 주도된다는 단점이 있습니다.AI기반의 인공 단백질 설계AI기술은 딥-러닝을 이용하고 단백질 구조와 기능 간의 관계 학습을 실시합니다.이에 의한 단백질-리간드 상호 결합을 예측하거나 단백질-단백질 상호 작용을 예측하거나 인공 단백질을 생성하는 등 여러 분야에서 활용됩니다.이 중 AI기반의 인공 단백질 설계는 기존 인공 단백질 설계의 단점을 해결할 수 있습니다.AI기술을 이용할 경우 자연계에 존재하지 않거나 실험적인 방법으로는 설계 불가능한 단백질을 인공적으로 설계할 수 있습니다.단백질을 구성하는 아미노산은 20종으로 매우 다양하고 복잡한 조합이 가능하지만 자연에 존재하는 단백질에는 한계가 있습니다.이때 AI기술을 이용하면 훨씬 다양한 구조의 단백질을 설계할 수 있습니다.또, 딥 러닝 모델을 통한 새로운 통찰력을 제시하고 단백질 설계의 비교적 쉬운 접근성을 기대할 수 있습니다.인공 단백질 설계 연구의 현재 목표는 표적 구조에서 잘 부러진 아미노산 배열을 찾는 데 있습니다.단백질의 구조 파악과 서열의 파악은 관계가 깊습니다.초기에는 실험적인 방법으로 인공 단백질을 설계할 때 아미노산 서열을 먼저 파악하고 그 서열을 바꾸는 방식으로 단백질을 설계했습니다.이 경우 아미노산 배열을 변화시키고 희망하는 구조와 기능을 갖추고 있는지를 조사하는 과정을 반복해야 하므로 시간과 비용이 많이 걸립니다.최근에는 데이터 처리 기술과 인공 지능의 발전으로 단백질 구조 예측의 정확도가 향상했습니다.거기에서 단백질 구조의 설계는 우선 희망하는 단백질의 구조를 파악하고 이 구조에 가장 적합한 아미노산 배열을 찾는 것을 목표로 합니다.AI 기술은 딥러닝을 이용해 단백질 구조와 기능 간 관계 학습을 합니다. 이를 통해 단백질-리간드 상호결합을 예측하거나 단백질-단백질 상호작용을 예측하거나 인공단백질을 생성하는 등 다양한 분야에서 활용됩니다. 이 중 AI를 기반으로 하는 인공단백질 설계는 기존 인공단백질 설계의 단점을 해결할 수 있습니다. AI 기술을 이용할 경우 자연계에 존재하지 않거나 실험적인 방법으로는 설계 불가능한 단백질을 인공적으로 설계할 수 있습니다. 단백질을 구성하는 아미노산은 20종으로 매우 다양하고 복잡한 조합이 가능하지만 자연적으로 존재하는 단백질에는 한계가 있습니다. 이때 AI 기술을 이용하면 훨씬 다양한 구조의 단백질을 설계할 수 있습니다. 또한 딥러닝 모델을 통한 새로운 통찰력을 제시하고 단백질 설계의 비교적 쉬운 접근성을 기대할 수 있습니다.인공 단백질 설계 연구의 현재 목표는 표적 구조에서 자주 접히는 아미노산 배열을 찾는 데 있습니다. 단백질의 구조 파악과 서열 파악은 관계가 깊습니다. 초기에는 실험적인 방법으로 인공 단백질을 설계할 때 아미노산 서열을 먼저 파악하고 그 서열을 바꾸는 방식으로 단백질을 설계했습니다. 이 경우 아미노산의 배열을 변화시키고 원하는 구조와 기능을 갖추고 있는지 알아보는 과정을 반복해야 하기 때문에 시간과 비용이 많이 듭니다. 최근에는 데이터 처리 기술과 인공지능의 발전으로 단백질 구조 예측의 정확도가 향상되었습니다. 그래서 단백질 구조 설계는 먼저 원하는 단백질 구조를 파악하고 이 구조에 가장 적합한 아미노산 배열을 찾는 것을 목표로 진행이 됩니다.인공 지능 기준 단백질 설계 툴의 사례, 인공 지능 기준 단백질 설계 툴의 몇가지 사례를 소개합니다.첫째는 2022년 미국 워싱턴 대학의 Pretein MPNN(Protein message-passing neural network)입니다.이는 딥 러닝 기반의 단백질 배열 설계 모델로 단백질 구조에서 구조 골격에 맞는 아미노산 염기 배열을 디자인하도록 개발된 도구입니다.이 모델은 희망하는 구조의 아미노산 간의 거리 정보를 측정하고 인코더에 입력하면 인코더가 시퀀스 디코더로 가장 적합하다고 판단되는 아미노산을 계산하고 표현하는 방법으로 이루어집니다.표현 방법으로는 노드에서 아미노산을 표현하는 에지에서 아미노산 사이의 거리와 각도를 표현합니다.여기에 백 드럼 노드의 경우 아미노산의 종류, 위치, 이차 구조의 정보를 부여하는 날에 아미노산 간의 거리, 각도, 수소 결합의 정보를 부여합니다.이처럼 신경망을 이용하고 단백질 구조와 순서 특징을 추출함으로써 각 아미노산의 위치에 대한 확률 분포를 예측합니다.연구 팀은 Protein MPNN의 성능을 평가하기 위해서 402개의 단백질에 대해서 모델이 디자인한 서열에서 예측된 단백질 구조와 실험으로 확인된 구조(기존에 알던 단백질의 구조)를 비교하고 봤대요.이때 Protein MPNN을 이용한 경우 52.9%가 일치했다는 것으로 종전보다 단백질 골격 구조에 근거하고 아미노산 서열을 예측하는 능력이 우수한 것으로 나타납니다.두번째는 2023년 미국 워싱턴 대학에서 공개한 RFdiffusion입니다.이는 확산 모델을 사용하는 생성형 인공 지능입니다.확산 모델은 자기 지도 학습(Self-supervised Learning)방법의 하나입니다.확산 모델 과정에서 모델은 학습 데이터에서 주어진 입력 이미지, 혹은 단백질 배열에 노이즈를 섞어(Forward diffusion), 다시 본래의 입력 값을 추론한다(Reverse diffusion)모델에 근거하고 있습니다.이것은 반대 과정을 축적시키고 생성 모델의 학습을 진행시키는 것으로 보입니다.확산 모델은 새로운 분자와 단백질 구조 예측과 설계 분야의 혁신을 주도하고 있습니다.인공지능 기반 단백질 설계 도구의 사례, 인공지능 기반 단백질 설계 도구의 몇 가지 사례를 소개합니다. 첫 번째는 2022년 미국 워싱턴 대학교의 Pretein MPNN(Protein message-passing neural network)입니다. 이는 딥러닝 기반 단백질 배열 설계 모델로 단백질 구조에서 구조 골격에 맞는 아미노산 염기서열을 디자인하도록 개발된 도구입니다. 이 모델은 원하는 구조의 아미노산 간 거리 정보를 측정하여 인코더에 입력하면 인코더가 시퀀스 디코더에서 가장 적합하다고 판단되는 아미노산을 계산하고 표현하는 방식으로 수행됩니다. 표현 방법으로는 노드로 아미노산을 표현하고 엣지로 아미노산 사이의 거리와 각도를 표현합니다. 여기에 벡터로 노드의 경우 아미노산의 종류, 위치, 2차 구조의 정보를 부여하고 에지에 아미노산 간의 거리, 각도, 수소 결합의 정보를 부여합니다. 이렇게 신경망을 이용해서 단백질 구조와 시퀀스 특징을 추출함으로써 각 아미노산의 위치에 대한 확률 분포를 예측합니다. 연구팀은 Protein MPNN의 성능을 평가하기 위해 402개 단백질에 대해 모델이 디자인한 서열에서 예측된 단백질 구조와 실험으로 확인된 구조(기존에 알고 있던 단백질의 구조)를 비교해봤다고 합니다. 이때 Protein MPNN을 이용했을 경우 52.9%가 일치했다고 하니까 기존에 비해서 단백질 골격 구조를 기반으로 아미노산 서열을 예측하는 능력이 탁월하다는 것을 알 수 있습니다.두 번째는 2023년 미국 워싱턴 대학교에서 공개한 RFdiffusion입니다. 이것은 확산 모델을 사용하는 생성형 인공지능입니다. 확산모델이란 자기지도학습(Self-supervised Learning) 방법 중 하나입니다. 확산 모델 과정에서 모델은 학습 데이터에서 주어진 입력 이미지 혹은 단백질 배열에 노이즈를 섞고(Forward diffusion), 다시 원래 입력값을 추론하는(Reverse diffusion) 모델을 기반으로 합니다. 이는 역과정을 축적시켜 생성 모델의 학습을 진행하는 것으로 보입니다. 확산 모델은 새로운 분자와 단백질 구조의 예측과 설계 분야의 혁신을 이끌고 있습니다.

인기글