뇌 오가노이드 학습시키기
본 포스트는 뇌과학을 공부하는 고등학생이 작성한 것입니다. 필자 개인의 해석이나 생각을 담은 내용이 존재하며, 잘못된 정보가 존재할 수 있으니 정확한 사실을 알기 위해서는 직접 논문을 확인해 주시기 바랍니다. 또한, 오류에 대해 댓글로 피드백해 주신다면 정말 감사하겠습니다.
들어가며
‘접시 위의 뇌’로도 일컬어지는 뇌 오가노이드(Brain Organoid)란 피부세포를 역분화시킨 유도 만능 줄기세포(iPSC)를 신경 조직으로 배양한 것이다. 신체 외부에 존재하지만 실제 신체 내부의 조직과 그 형태, 특성이 유사하기 때문에, 화학 물질 처리 등 실제 사람의 뇌에 시행하기 어려운 실험을 수행하여 알츠하이머 등 뇌질환의 원인을 밝혀내고 치료법을 개발하는 데 큰 도움을 주고 있다.
신경조직은 결국 뉴런들이 시냅스를 형성하며 얼키고설킨 네트워크 구조이다. 여기에 적절하게 전기 자극을 가한다면, 실제 우리의 뇌가 사고하듯 어떤 출력을 내보낼 수 있지 않을까? 최종적으로는, 뇌 오가노이드를 이용하여 진정한 의미의 바이오 컴퓨터, 뉴로모픽 컴퓨터를 만들 수 있지 않을까?

작년 이맘때 즈음 ‘핑퐁 게임을 하는 접시 위의 뇌’ 라는 기사를 본 적이 있다. 상상만 하고 있던 일이 실제로 구현되어 신기하기도 하였지만, ‘어떤 방법으로 학습시켰을까?’ 하는 궁금증이 발생하였다. 뇌의 신경망을 모방한 인공지능 기법인 인공신경망은, 원하는 답과 출력값의 차이인 오차 함수를 줄이는 방향으로 가중치를 수정해나가며, 즉 경사하강법에 기반한 오차역전파법으로 학습시킨다. 이는 순전히 수학적이고 논리적인 과정이다. 답이 정해지지 않은 강화 학습의 경우 상-벌을 적절히 가하며 높은 점수를 얻도록 유도한다. 그런데 뇌 오가노이드는? 개별 뉴런의 역치값을 수정할 수도 없는 노릇이고, 상-벌을 준다고 해도 그 형태가 명확하지 않다.
직접 해당 논문을 읽어보며, 뇌 오가노이드를 학습시키는 방법을 조사해 보았다.
생체 외 신경 조직은 시뮬레이션 게임 세계에 구현될 때 감각을 학습합니다.
이 논문이 바로 위 사진의 기사의 주제인 “접시 속 뇌의 게임 플레이” 연구 논문이다. 정확히는, 오스트레일리아 멜버른의 Cortical Labs에서 Neuron지에 발표한 뇌 오가노이드의 Pong 게임 학습에 관한 논문이다. Cortical Labs는 뇌 오가노이드의 지능을 중심적으로 연구하는 연구소이다.

논문의 요지
본 논문의 요지는 다음과 같다.
- Closed-loop feedback(출력이 입력에 사용되는 피드백)이 뇌 오가노이드의 학습 능력을 향상시킴
- 인간과 쥐의 대뇌 피질 뉴런에서 모두 학습 현상을 관찰함
- 자극을 주지만 피드백이 없는 경우에는 학습 현상이 관찰되지 않음
- 게임 세계를 구현할 때 신경의 전기적 활동이 동적으로 변화하는 것을 관찰함

위의 사진은 본 논문의 연구에서 사용한 실험 장치의 모식도이다. 게임 환경과 뇌 오가노이드가 전극과 배선을 매개체로 닫힌 루프를 이루고 있다. 게임 환경의 상태가 input 전극으로 입력되고, 신경 조직에서 만들어진 신호를 output 전극에서 감지하고, 게임기를 조종하여 환경 상태를 바꾼다. 이때 긍정적인 피드백(공을 쳐 냄)은 일정한 주파수의 예측 가능한 전극을 일정한 시간 전달하는 것이고, 부정적인 피드백(공을 쳐 내지 못함)은 불규칙한 주파수와 세기의 피드백을 랜덤한 시간 전달하는 것이다.
연구의 결과에 대한 정보는 뉴스 기사나 인터넷 검색, 유튜브 영상 등으로 쉽게 얻을 수 있기 때문에 굳이 여기 서술하지는 않겠다.
자유 에너지 원리
이러한 학습 방식을 뒷받침하는 원리는 ‘자유 에너지 원리’ 이다. 이는 생물의 학습은 ‘불확실한 것을 피하려는 방향’으로 작동하기 때문에, 불규칙 신호는 자연적으로 부정 피드백으로 작용한다는 것이다. 실제 우리의 생활에서도, 불확실한 일(재난 재해, 죽음, 주식 폭락 등)은 대부분 부정적 사건이고, 사람들은 이를 피하기 위해 고군분투한다. 여기에 관해서는 추후 시간이 나면 제대로 다루어 보겠다.
살아있는 신경 조직에서 FORCE 학습을 통한 물리적 저수지 컴퓨팅
본 논문은 2024년 8월 Newton(한국판)에서 소개된 도쿄대학(東京大学) 히로카즈 타카하시 교수의 연구 논문이다. 제목이 이해하기 어려울 수 있는데, 논문의 내용은 뇌 오가노이드가 미로를 탐색하여 목표물을 찾아가는 로봇을 조종하였다고 요약할 수 있다.
FORCE 학습
FORCE 학습은 신경망의 외부 또는 내부에서 시냅스의 강도를 직접 조절해 무작위적인 자발적 활동을 원하는 활동 패턴으로 변경하는 학습 방법이다. 딥러닝에서 사용되는 인공 신경망은 일반적으로 층(입력, 은닉, 출력) 단위로 뉴런이 연결되어 있으며, 그 흐름 방향이 일정하다. 하지만 실제 생물의 신경망은 무작위적으로 얼키고설켜 순환 루프를 포함하는 복잡한 구조를 형성한다. 이러한 구조의 신경망은 무작위적이고 혼란스러운 출력을 내어 놓기 때문에, 기존의 경사하강법과는 다른 학습 방법이 필요하다. 이 논문에서 처음 제안될 때는 실제 신경망의 무작위적 구조와 시냅스 형성을 모방한 인공 신경망을 대상으로 하였지만, 본 논문에서는 실제 뇌 조직에 FORCE 학습을 시행한다.
저수지 컴퓨팅
저수지 컴퓨팅(Reservoir Computing)은 ‘저수지’로 비유되는 비선형 계를 이용한 계산 처리 방법이다. 이는 순환 신경망(RNN)에서 아이디어를 얻어 창안되었다. 순환 신경망과 같이 내부적 순환을 포함하는 복잡한 비선형 계(저수지)를 암실과 같이 취급한 후, 입력에 따른 출력의 패턴을 파악하여 계산을 수행한다. 이때 RNN과의 가장 큰 차이는 출력의 패턴 분류만 학습할 뿐, ‘저수지’의 가중치는 학습하지 않는다는 것이다. 저수지의 연결과 가중치는 무작위적으로 생성된다. ‘저수지’는 소프트웨어로 구현된 복잡계일수도 있고, 실제 물리적 대상일 수도 있다. 본 논문에서는 실제 뇌 조직을 ‘저수지’로써 사용하였다.
실험 설계 및 과정

위 사진은 뇌 오가노이드가 조종하는 로봇이 장애물을 피하며 목표물을 향해 나아가는 경로이다. 랜덤한 경로를 따라 이동한 것이 아닌, 확실하게 목표물을 따라 나아간 것이다.

(a)는 뇌 조직을 저수지 컴퓨팅으로 이용하여 로봇의 방향을 조절하는 모식도이다. 피드백에 따라 신경망에서 신호 확산이 이루어지고, 출력 전극에서 신호값에 따라 방향 조절을 수행한다. (+)값이면 왼쪽으로 회전, 0이면 직진, (-)값이면 오른쪽으로 회전한다.

(b)는 피드백을 제공하고 FORCE 학습을 진행하는 과정의 모식도이다. 로봇이 장애물에 충돌하거나, 진행 방향이 목표물 방향에서 90도 이상 틀어져 있다면, 조직에 전기 자극을 가해 부정 피드백을 제공했다. 또한, 출력 전극의 신호를 평탄화하여 FORCE 학습의 출력으로 사용했다. 청색광을 받으면 뉴런을 활성화시킬 수 있는 루비-글루타메이를 투입하고, 청색광 레이저를 뇌 조직에 조사하여 FORCE 학습을 시행하였다.
맺으며
‘FORCE 학습’과 ‘저수지 컴퓨팅’은 기계 학습과 인공 신경망 분야에서 일반적이지 않은, 쉽게 접하기 어려운 개념이다. 실제 서비스로도 널리 활용되는 딥러닝, RNN, CNN 등과 달리, 불확실성과 정확성이 부족하여 실용성이 떨어지기 때문이다. 하지만 순환적 구조의 포함, 직접적인 매개변수 조절의 어려움 등 실제 생물의 신경망과 가장 비슷한 특성을 가지기 때문에 학문적인 가치는 높다. 특히, 소프트웨어상의 복잡계 네트워크 구조에서 연구되었던 FORCE 학습 방법을 실제 뇌 조직에 적용하여 그 효과를 입증한 것이 놀라웠다. 예산이 많이 필요하고 시간이 오래 걸리는 실제 뇌 조직 배양을 사용하지 않고도, 먼저 컴퓨터의 가상 뇌 조직에서 학습을 시행한 후 실제로도 적용되는지 확인하는 방식으로 실험할 수 있는 가능성이 존재하기 때문이다.
나의 생각
미래의 컴퓨터에는 하나 이상의 뇌 조직이 포함되지 않을까 조심스레 생각해 본다. ‘모델 학습’과 ‘모델 사용’의 시간적 차이가 존재하지 않는, 입출력과 동시에 학습이 가능한 유연한 신경망으로 작용할 것이기 때문이다. 어쩌면 병렬 컴퓨팅을 통해 의식이 존재하지 않는다는 기존 인공지능의 한계를 극복하고, 진심으로 자연어를 이해하고 출력하는 자연어 처리 모듈이 만들어질 수도 있을 것이다. 아직은 공상의 영역이지만, 미래는 어떻게 다가올 지 지모르니, 미리 하나씩 알아보면 재미있지 아니한가.

