2025-12-01から1ヶ月間の記事一覧

2025年このブログの振り返り

取り組みへの振り返り 去年は「毎週更新」に挑戦を始める年で、ある程度やれたが競技プログラミングの内容でお茶を濁すこともあった。今年は毎週更新を維持しつつ、内容をほぼ強化学習関連で埋めるように意識した。記憶違いでなければ落とした週はなかったし…

2025年印象に残った論文リスト

2025年個人的に影響を受けた論文 思想編と実践編に分けて、今年出た論文で自分が影響を受けたものをピックアップしていきます。 思想編 強化学習の根本的な問題設定などについての論文になります。 Welcome to the Era of Experience David Silver, Richard …

外山紀子・中島伸子『乳幼児は世界をどう理解しているのか』読書メモ

基本的に事前学習済みVision Language Modelを起点とした強化学習を考えているのですが、今のVLMがどれだけ乳児の能力と似ているのか・異なるのかという点を知りたくなったため、タイトルの本を読みました。新書ではありますが、参考文献が多く引かれていま…

Qwen3-VLの検証(その3)

今回はQwen3-VLに対してCarRacing-v3のエピソード全体を動画として入力し、良いエピソードと悪いエピソードを言語的に説明できるのかどうかを検証します。 Technical Reportを読む限り、Qwen3-VLは基本的に英語・中国語で学習されていると読み取れたため、プ…

断想

強化学習エージェントになんらかの内発報酬を与えるとして、それがとても高度に発展した際には、強化学習エージェントによって芸術が生み出される余地があってほしい。人間には理解できないような形式で、ある感覚をよく表現する芸術を生み出すために必要な…

ICRLの調査

A Survey of In-Context Reinforcement Learningなどを参考に探していきます。 2023/12/06 Generalization to New Sequential Decision Making Tasks with In-Context Learning Expertの行動から模倣学習をする際に、複数エピソード連結して学習した方が、単…

LLM系における記憶機構の調査

(1) MemVerse この論文を起点にして調査します。 まずこの論文では、既存研究について記憶の実現方法を2通りに分類しています。 (A) パラメータに埋め込まれた記憶 ニューラルネットワークのパラメータや活性値で記憶を実現する手法群です。fine-tuning, pro…

【断想】エピソード記憶

一つの(強化学習)エージェントが通時的な記憶を保持して振る舞うことに興味があります。エージェントはどれくらい遠い将来への指示を受け入れられるでしょうか。一年後に行うことを約束し、適切に履行できるでしょうか。あるいは一年前にやったことを思い出…