Поиск по сайту
Авторизация
Логин:
Пароль:
Забыли свой пароль?
Рейтинг@Mail.ru
Подписка на рассылку...

Модуль подписки в настоящее время недоступен.

Аналогическое обучение в Пошаговой стратегии игры

Аннотация
Ключевой проблемой в игре стратегии игры учит, как эффективно распределять ресурсы. Это может быть трудной задачей для машинного обучения, когда связи между действиями и цели выходов являются косвенными и сложными. Мы покажем, как сочетание структурной аналогии, экспериментов и качественного моделирования могут быть использованы для повышения производительности в оптимизации производства продуктов питания в стратегии игры. Экспериментирование бутстрэпами библиотеку случая и диски изменения, в то время как аналогичные рассуждения поддерживает поиск и передачу. Качественная модель служит в качестве частичной теории домена для поддержки адаптации и кредитного назначения. Вместе эти методы могут позволить системе, чтобы узнать последствия своих действий, диапазоны величин, и применять обучение в одном городе на другие, структурно разных городов. Описаны эксперименты, демонстрирующие этот перенос обучения.

1. Введение
Когда новичок научится играть стратегию игры, его первоначальный фокус внимания, как правило, сосредоточен на выяснение того, как работают вещи. Еще задолго до создания репертуара конкурентных стратегий, он пытается из основных действий, видеть их последствия и находить ловушки, чтобы их избежать. Мы считаем, что аналогия играет ключевую роль в этом процессе обнаружения, особенно в отображении через структурно различных ситуациях. Тем не менее, аналогия сама по себе не может объяснить очень активный процесс, что учащиеся проходят в изучении мира и построения объяснения. В этой статье мы покажем, как стратегии экспериментирования и качественное рассуждение может поддерживать планирование и аналогии в задачах распределения учебных ресурсов в стратегии игры пошаговой.
Игры такого рода имеют несколько интересных свойств: 1) они включают неполное знание мира, 2) они влекут за собой сложные взаимосвязи между действиями и наблюдаемыми величинами, 3) цели могут быть более похожими задач оптимизации, чем государства, которые должны быть достигнуты, и 4) планирование и выполнение плотно чередоваться. Качественные представления могут служить в качестве теории частичных областей для планирования и обучения на различных уровнях опыта.
 
В этой статье мы опишем, как интеграция аналогии, экспериментов и качественная модель городского управления может поддерживать планирование и обучение в игре Freeciv [Freeciv, 2006]. В оставшейся части этого раздела мы опишем контекст этой работы, обеспечивая краткий обзор домена Freeciv, наш HTN планировщик и аналогий и экспериментов. Далее мы опишем, как мы используем качественную модель экономики города поддержать назначение кредита и избежать локальных максимумов. Мы опишем некоторые эксперименты, демонстрирующие возможность передачи и адаптации предварительного обучения по разным городам, и мы закрываем путем обсуждения соответствующей работы и планы на будущее.

1.1 Freeciv Домен
Freeciv пошаговая стратегия игры с открытым исходным кодом по образцу серии Сида Мейера из Civilization games [Freeciv, 2006] (http://samye-luchshie.ru/лучшие-пошаговые-стратегии-на-pc). Цель игры состоит в том, чтобы начать цивилизацию от первоначальных поселенцев в каменном веке и расширяться и не развивать его, пока вы либо завоевать мир или выиграть космическую гонку и бежать к Альфа Центавра. В любом случае, игра может быть охарактеризована как раса, чтобы построить вашу цивилизацию и технологическую изощренность быстрее, чем ваши оппоненты. По пути, есть много запросов на ограниченные ресурсы, инвестиций и развития. Например, игроки должны улучшить местность с орошением и дорог, избегая при этом голод и военное поражение. Слишком большой акцент на военной готовности, к примеру, могут сделать граждане недовольны и, следовательно, менее продуктивным. Деньги должны быть выделено на исследования в новые технологии, такие как демократия и чугуна, которые позволяют игрокам создавать новые улучшения в городах, новые типы единиц, а также принять новые типы правительств, каждый со своими компромиссами.
В нашем наборе экспериментов, мы обратили внимание на подзадачи управления городами, чтобы оптимизировать использование ресурсов, создание инфраструктуры, улучшить рельеф местности, а также научно-исследовательских технологий. В то время как наш планировщик может направлять исследования, задачи управления города предлагают четкие показатели оценки. Мы также в настоящее время игнорируют военные операции, вместо этого сосредоточится на том, как сделать богатую, продуктивную цивилизацию.

1.2 HTN Планирование
Для поддержки выполнения и обучения в стратегической игре, мы реализовали Иерархическую Task Network (HTN) планировщик с использованием алгоритма магазина [Нау и др., 1999]. В HTN планировщик, сложные задачи разбиваются на примитивных исполняемых задач. Примитивы в Freeciv соответствуют пакетам, которые отправляются на сервер игры, представляющие такие действия, как отправка блока в определенное место или сообщая, что город, чтобы построить. Сложные задачи на уровне выяснить, что блок должен делать на конкретной очереди, или решить, как смягчить кризис в городе (например, голод или бунт.) Планировщик генерирует планы для каждого подразделения и города на каждом шагу и интегрирует их в комбинированном среде планирования / выполнения. Планирование вызывается частично в форме управляемой событиями, таким образом, что овеществлённая события от запуска игры определенных решений. Например, агент планирования не повторно вычислять свою глобальную стратегию на каждом шагу, но проверяет, является ли она приобрела какие-либо новые технологии в последнюю очередь, и лишь затем пересмотреть свою стратегию.
Одним из важнейших аспектов этой игры заключается в том, что она требует планирования с неполной и неточной информации. Местность не известна до тех пор, пока не будет исследоваться. Результаты некоторых действий являются стохастическими, например, деревенские хижины могут содержать варваров, которые будут убивать эксплорер, или они могут содержать золото или новые технологии. Существует также гораздо больше информации в игре, чем можно рассматривать в рамках государственного планирования. Следовательно, планировщик не может планировать действия качестве агента, начиная с полного начального состояния. Он должен материализовать информацию по требованию, запрашивая состояние игры. В то же время, планировщик может проецировать последствия таких действий, что планируемый состояние отличается от состояния игры. Для того, чтобы примирить эти конкурирующие потребности, мы поддерживаем два контексты (ср, Ленат 1995): контекст игра, которая всегда отражает неполную, но текущее состояние игры и контекст планирования, в котором государства проецируемого вперед. Каждый запрос для получения информации, которые не могут быть непосредственно от планируемого состояния переходит к запроса состояния игры. Перед возвращением такую ​​игру сведения о состоянии, проверяется на соответствие с государственным планом, чтобы гарантировать, что, например, блок не считается в двух местах одновременно. Это простая эвристика, которая проверяет наличие явных отрицаний и непоследовательных значений функциональных предикатов.
В дополнение к материализации по требованию, иначе мы вмещать неполную информацию через примитивов планирования второго порядка. DoPlan примитивный план позволяет отложить принятие решения до момента выполнения, таким образом, осуществление своего рода условного плана. Другие доменные независимые примитивы включают бухгалтерские методы для обновления фактов в тех случаях, и doCallback, который приостанавливает план, пока условие не станет истинным, на котором она инстанцирует план с новыми креплениями и возобновляет выполнение. Это может играть важную роль в оценке отдаленных последствий действий.

1.3 Аналогическое обучения
Цель высокого уровня данного исследования заключается в демонстрации того, как аналогия и качественное рассуждение может поддерживать машинное обучение по более удаленных прецедентах передачи. Для этого мы используем структуру Mapping Engine (МСП) [Falkenhainer и др., 1989], механизм MAC / извлечения КВС [Forbus и др., 1995], и система SEQL обобщение [Кюне и др., 2000 ] в качестве основных компонентов. Эти механизмы аналогичные тесно интегрированы в основной рассуждения двигателя и обеспечивают механизмы для поиска, сравнения и передачи. Структура Mapping двигателя, в частности, не только оценивает сходство прецедента к текущей ситуации, но и проекты предыдущее решение в новом деле, переводя объекты их эквивалентов, отображенных в виде кандидатских умозаключений. Таким образом, аналогия обеспечивает первый уровень адаптации автоматически.
Блок сравнения и извлечения является случай, и в этом подходе, случаи не являются целыми игры (хотя некоторые уроки, конечно, можно почерпнуть из этой зернистости), ни даже целые города. Вместо этого дело индивидуальное решение в контексте конкретного города в определенный момент времени в данной игре. Например, случаи могут захватить решение о том, какие улучшения строить, какие плитки, чтобы работать, и на более широком уровне игры, какие технологии для поиска. Для каждого типа решения, существует множество запросов, представленных в базе знаний, которые определены как, возможно, отношение к принятия решения. Существует еще один набор запросов, которые имеют отношение к завоеванию и оценке случай решения. Когда решение действует в игре, снимок случае строится до и после выполнения и хранится в контексте игры. Этот случай снимок используется как для анализа последствий действий и поддержки позже аналогичную передачу.
Для поисковых целей, дела объединены в тематические библиотеки, из которых MAC / FAC может извлечь наиболее структурно подобный прецедент. По мере того как планировщик пытается освоить задачи принятия решений, он создает и заносит библиотеки для каждого типа задач. После выполнения плана, текущие соответствующие факты опрашиваются и хранится в виде временной суб-абстракции в контексте игры. Когда результат действия оценивается по отношению к цели производительности, корпус добавляется в конкретных задач библиотеки успешными или случаях, в зависимости от обстоятельств. Случай считается успешным, если оно одновременно повышает количество цели и количество отвечает любым требованиям пороговых. По существу, "удовлетворяющую" действия, которые улучшают количество цели, это можно рассматривать как тип обучения по методу временных разниц [Sutton, 1988]. Однако порог обеспечивает дополнительные критерии, что помогает предотвратить накопление случаев с низкими значениями, которые, как правило, покидают систему застрял в локальных максимумов. Другими словами, это действие, которое улучшило прецедент от "страшных", чтобы просто "плохо", вероятно, не поможет в новой ситуации. Для максимизации целей, этот первоначальный порог просто "больше нуля", в то время как для минимизации и цели баланса, остается неопределенным.
Одна из сложностей картографии до решения новой проблемы является то, что конкретные варианты не могут иметь четкое соответствие в новой задаче. Когда это происходит, процесс отображения производит аналогию сколемовской, обозначающее неподключенному сущность. Мы принимаем решение таких skolems, собирая факты, которые упоминают, что сущность в базовом варианте, и рассматривать их в качестве ограничений в задаче. Мы затем выбрать случайным образом из тех вариантов, которые удовлетворяют ограничениям. Важное понимание, что это не всегда необходимо, чтобы решить все skolems в предыдущем плане, но только те, которые соответствуют текущему выбору. Так, например, если предыдущий план был переместить работника из одной плитки к другой, но в настоящее время проблема заключается в выделении доступного работника, то нет необходимости разрешить предварительное расположение работника.

1.4 Экспериментирование
Хотя аналогия может быть мощным средством для обучения, должны сначала быть случаи для получения и сравнения. Чтобы выполнить начальную загрузку библиотеки случай и обеспечить разнообразие случаев, мы направляем эмпирического обучения с помощью конкретных целей обучения [Ram и Лик, 1995]. Некоторые цели обучения, как правило, предоставляются в начале игры, такие, как цель, чтобы узнать эффект действия, выделяющих работников. Другие цели обучения могут быть размещены в качестве побочного продукта объяснения неудач, таких как обучение диапазоны величин. Эти цели могут сохраняться в разных играх.
Цель для изучения последствий действий определяет, как задача решение будет решена, когда нет достаточного количества прецедентов, аналогичные или консервированных планы. Стратегия экспериментирование она использует принимает решения случайным образом для того, чтобы произвести необходимые изменения и предусмотрены случаи, которые лучше покрывают пространство решений. Эта стратегия, как правило, сопровождается дополнительными целями обучения для управления параметрами (подавляя решений), для того, чтобы попытаться узнать один эффект за один раз. Такой подход проб и ошибок, как правило, лучше всего подходит для простых решений низкого уровня.
В контексте одиночной игры, плохой выбор не пересмотрены вслепую, но записываются как nogoods. Сельское хозяйство в пустыне, как правило, приводит к этой плитки помечены как nogood. Проблема с этим состоит в том, что для некоторых сложных городов, система может запускать из вариантов, в какой момент он должен пересмотреть nogoods, но попробовав их, теперь он может заказать их исполнением и выбрать лучшее из того, что остается.
В дальнейшем, в успешных случаях накапливаются, становится возможным решить проблемы аналогически. Тем не менее, когда аналоговая передача выходит из строя или бежит из успешных прецедентах, он возвращается на эксперименты.

2 Эксплуатируя качественную модель
Качественная модель представляет собой частичное теория домена, которая захватывает влияния между величинами. Одним из выдающихся особенности игры, как Freeciv является сложность количественных соотношений в двигателе моделирования. Понимание взаимоотношений является решающим фактором в игру хорошо. На рисунке 2 показана небольшая часть нашей модели городов Freeciv.
Основной способ качественная модель в настоящее время используется, чтобы определить, какие изменения, понесенные действия соответствуют целям и являются ли эти изменения означают успех или неудачу. Модель позволяет системе отслеживать от локальных задач до глобальных целей для назначения кредита и виноват.
Вторая роль модели заключается в определении количества листьев, которые могут повлиять на выходы, и нерест цели обучения, как описано в разделе «Преодоление локальных максимумов", ниже.
Наибольшую потенциальную роль качественных моделей будет синтезировать стратегии более высокого уровня, предлагая примитивные действия, которые влияют на голевые величины. Это текущая работа, которая выходит за рамки данной статьи.

2.1 Преодоление локальных максимумов
Одна из трудностей в применении к обучению аналогическую оптимизации задач этого типа является то, что легко попасть в локальные максимумы, где производительность системы останавливается улучшение и держит принятие те же прецеденты снова и снова. У нас есть два пути преодоления этого:
Во-первых, когда он не в состоянии улучшить цели, он пытается объяснить, почему. Обходя качественную модель, она собирает листовые величины, которые в конечном счете влияют на цели. Затем он отправляет цели обучения, чтобы узнать максимальные или минимальные значения этих величин (например, пищевые продукты, произведенные на отдельные плитки). На протяжении нескольких итераций, это обеспечивает простое ожидание о том, что должно быть достижимо. Учащийся использует эту информацию, чтобы оценить улучшение, которое должно быть возможным путем перемещения работника из наименее продуктивной плитки, чтобы максимально продуктивной плитки. Затем, в зависимости от его текущего терпимости к риску, он устанавливает минимально допустимый порог для его количества мячей. Поднимая планку таким образом, она заставляет обучаемый экспериментировать еще немного, чтобы найти лучшее решение. Терпимость к риску упомянутых выше, является функцией штрафа, которые будут понесены на плохое решение. Например, когда город растет, его зернохранилище начинается пусто. Перемещение работника на менее продуктивные месте может привести к катастрофическому голоду, если зернохранилище пуст, но может быть легко исправить, если зернохранилище почти заполнен.
Второй способ (пока не реализовано) является явным признанием отсутствие улучшений. Таким же образом, что человек может смотреть на обучение графике и распознавать локальные максимумы, так что следует система. Если в последнее время тенденция по играм плоская или снижается, это может послужить стимулом для более экспериментировать и быть менее удовлетворены существующими случаях.

3 Эксперименты обучения Передача
Для того чтобы измерить общность механизма обучения, мы провели ряд экспериментов по передаче обучения. Обучение включает в себя обучение Передача системы производительности на одном наборе задач и условий измерения и его влияние на обучение в другой, но связанной с набором задач и условий. Три типа улучшения возможны: более высокая начальная производительность (далее "Y перехватывают"), быстрее скорость обучения, и / или выше конечного (асимптотическая) производительность. В экспериментах мы описываем здесь, система научилась распределять рабочих к производительным плитки, при проведении других потенциально приравнивая решения постоянной.
Чтобы понять задачу распределения работника лучше, то надо понимать, что города в Freeciv может принести пользу только от работы 21 плитки в непосредственной области, как показано на рисунке 3. Некоторые плитки имеют более высокую производительность, чем другие, в силу их типа местности и случайным образом размещены ресурс "специальные". Когда город основан, он имеет один «работник» гражданин готов приступить к работе земли и производства продуктов питания. Если больше пищи производится, чем потребляется, а затем зернохранилище города медленно заполняет над числом витков. Когда он полон, город растет, производя другого работника, который может быть назначен другой плитки. Если же, с другой стороны, больше пищи потребляется, чем производится, а затем, когда амбар пустой город испытывает голод и потерял работника. Задача, которую мы поставили для ученика, чтобы узнать, какие плитки будет самым улучшить производство продуктов питания. Цель производительности состоит в максимизации общего производства пищевых продуктов в конце 50 ходов. Обратите внимание, что это сильно зависит от того, как быстро растет город, который, в свою очередь, зависит от принятия правильных решений рано и избежать голода.
Для упрощения оценки, мы контролировали производственные город очереди, чтобы производить только чеканку, и ограничили программу исследований технологии, чтобы работать в направлении TheRepublic. Помимо этого, было также необходимо контролировать для неудачной тенденции игры выделить рабочих для вас, когда город растет или уменьшается. Мы сделали это, перехватывая эти изменения в подпрограммы обработчика пакетов низкого уровня и отменяя вмешательство игры до того, как обучение агент никогда не видит. В этих экспериментах мы провели 10 обучающих игр на одном городе, "Филадельфия", а затем 10 игр на структурно другом городе, "Нью-Йорк". Каждая игра остановлена ​​после 50 ходов, что примерно достаточно долго, чтобы показать некоторые вариации в производительности.
Тем не менее, в случаях с предварительной подготовки, система держали те же ошибки снова и снова. А именно то, что происходило в том, что, как он приобрел опыт, она передала успешные случаи в начале игры, достигая население 5 или 6. Тем не менее, существуют, как правило, не более 3-х или 4-х однозначно отображаемыми высокопродуктивных плитки в городе. Так что выше этого размера, система упала на случайном выборе. Это само по себе не страшно, за исключением того, что система не имели средств для обучения из предыдущих неудачных случаев, и поэтому будут продолжать пытаться фермером пустыню и страдают голод. Так как это был не тот случай отрицательного переноса, мы изменили стратегию экспериментирования сначала извлечь наиболее похожие неудачные случаи и сопоставить их выбор в nogoods в данном случае. Мы провели 12 последовательностей 10 игр в каждом состоянии и построить средние кривые обучения. Эти результаты показывают улучшение в начальной (Y-перехват) производительность на 36%, с P-значением 0,017 и 95% доверительного интервала между 1,66 и 0,33, и поэтому статистически значимыми. Кроме того, мы проанализировали сохраненные случаи и определили, что заболеваемость голода упала в два раза. Как избежать плохих случайных решений имеет эффект сходящихся более быстро к асимптоты и снижения вариабельности показателей. Это говорит о том, что будущие эксперименты обучения потребует более сложных, открытые задачи.

4 Связанные работы
Эта работа является частью правительственной программы, финансируемой по программе обучения. Другие группы преследуют схожие цели, но несколько по-разному. ICARUS [Лэнгли и др., 2005] и SOAR [Насон и Laird, 2005] оба были применены к обучению в режиме реального времени игрового окружения, используя марковские логических сетей и Байеса методы соответственно. ICARUS также был расширен, чтобы включить HTN планировщик для создания иерархических навыки, которые могут быть выполнены в архитектуре. В отличие от ICARUS, наша система не учит иерархические навыков, но вместо этого использует аналогию передавать экземпляры решений.
Тип обучения нашей системы делает можно рассматривать как своего рода обучения с подкреплением [Kaelbling и др., 1996], в той мере, она включает в себя неконтролируемое интерактивное обучение и требует исследования пространства действий. В армирующего обучения, успешные действия будут вознаграждены таким образом, что они будут иметь преимущество в будущем. Здесь, успешные действия будут вознаграждены, добавив их в библиотеку успешных случаев. Тем не менее, акцент явно отличается, потому что процесс, который мы описали это наукоемкими, управляемой моделями, и экземпляр на базе. Дерек мост [2005] также исследовали соотношение между армирующей обучения и CBR, в контексте систем рекомендационные.
Качественные модели были использованы при планировании ранее, в частности Hogge в [1988] TPLAN, который составил качественную теорию домена в операторы планирования, Forbus [1989] на действие дополненной envisionments, которые интегрированные действия в envisioner и Drabble часа [1993] планирования EXCALIBUR и система исполнения, которая используется теория QP с иерархическим планировщиком частичного порядка. Домен стратегия игры является более сложной, чем любой из областей, решаемых в рамках предыдущих усилий. Наше использование HTNs был вдохновлен Муньос-Авила и Aha [2004], который использовал планирование HTN в игре стратегии в реальном времени.
Prodigy / Аналогия тесно интегрированы аналогию с решением задачи [Велозу, 1994]. Ядро Prodigy означает, завершающихся стратегия анализа, возможно, более склонны к умозаключений задач, чем виды целей оптимизации с которыми мы сталкиваемся. Лю и Стоун [2006] также применяется структура отображения для передачи обучения в области RoboCup футбола.
Другие исследователи также использовали в качестве FreeCiv домена обучения. Группа Ашок Goel по адресу Georgia Tech применяет модель на основе Самоадаптация в сочетании с подкреплением [Улама и др, 2005]. Мы считаем, что аналогия будет лучше поддерживать дистанционное обучение передачи, и что качественные модели, в конечном счете позволяют стратегическое мышление таким образом, что их модели TKML не будет.

5 Сумма мэри
В данной работе представлены первые результаты по интеграции аналогию, экспериментирования и качественное моделирование в системе планирования, выполнения и обучение в стратегии игры. Мы полагаем, что качественные модели обеспечивают средний уровень знаний в предметной области, сравнимое с тем, что начинающий человек игрок может начать с. Мы описали использование аналогии сравнить до и после того, как снимки с целью получения эффекта действия. На основании экспериментальных результатов, мы реализовали небольшое изменение планов, позволяющих учиться на ошибках. Это привело к резкому улучшению поведения.
Очевидно, что изучение решений о распределении ресурсов является лишь первым шагом на пути к обучению и передаче абстракций и HighLevel стратегий. Мы исследуем роль качественных моделей для составления новых планов. Мы также намерены разработать более сложные стратегии достижения цели обучения.
Эта система в настоящее время не построения явных обобщений. Следовательно, это можно рассматривать как своего рода передачи с помощью reoperationalization [Krulwich и др., 1990], хотя по нерест цели обучения в ответ на неудачи, мы часть пути к пояснительным передачи. Следующим шагом для нас будет использовать SEQL строить обобщения и правила, как только концептуальные различия достаточно захвачены в случае основания.
 
Другим важным в ближайшей перспективе цель состоит в том, чтобы извлечь и рассуждать о тенденциях, сроков и точек перегиба. Это критически важным требованием для изучения ранних признаков надвигающейся проблемы и научиться компенсировать их, прежде чем они станут более серьезными.
В конечном счете, мы ожидаем, что методы, разработанные на основе этих усилий, чтобы быть применимы к отражательной контролем агентов в Companion когнитивной системы [Forbus и Hinrichs, 2006]. Стратегий и направлять агентов в игре похожа на проблему координации вычислительных ресурсов, обучения от взаимодействия с человеческим партнером, и поддержание эпизодическую память предыдущих сессий рассуждения.

Выражение признательности
Это исследование было поддержано DARPA в рамках программы Transfer Learning. Мы благодарим Фила Houk, Джон Зорг, Джефф Usher, и Грег Данхэм за их вклад программирования.

Рекомендации

  1. [Bridge, 2005] Derek Bridge. The Virtue of Reward: Performance, Reinforcement and Discovery in Case-Based Reasoning. Invited talk presented at ICCBR 2005.

  2. [Drabble, 1993] Brian Drabble. EXCALIBUR: A Program for Planning and Reasoning with Processes. Artificial Intelligence 62(1)1-40.

  3. [Falkenhainer et al., 1989] Falkenhainer, B., Forbus, K., and Gentner, D. The Structure-Mapping Engine: Algorithm and Examples. Artificial Intelligence 41(1):1-63, 1989.

  4. [Forbus, 1989] Kenneth D. Forbus. Introducing Actions into Qualitative Simulation. Proceedings of the Eleventh International Joint Conference on Artificial Intelligence. Detroit, MI. pp. 1273-1278, 1989.

  5. [Forbus et al 1995] Kenneth D. Forbus, Dedre Gentner, & Keith Law. MAC/FAC: A model of similarity-based retrieval. Cognitive Science 19:141-205.

  6. [Forbus and Hinrichs, 2006] Kenneth D. Forbus and Thomas R. Hinrichs. Companion Cognitive Systems: A step towards human-level AI. AI Magazine, vol. 27(2):83-95

  7. [Freeciv, 2006] Freeciv official website httр://Freeciv.org/.

  8. [Gentner, 1983] Dedre Gentner. Structure-Mapping: A theoretical framework for analogy, Cognitive Science 7(2):155-170, 1983.

  9. [Hogge, 1988] John C. Hogge. Prevention techniques for a temporal planner. Proceedings of the Seventh National Conference on Artificial Intelligence, pages. 43-48.

  10. [Kaelbling et al., 1996] Leslie Pack Kaelbling, Michael L. Littman, and Andrew W. Moore. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research 4:237-285, 1996.

  11. [Kamps and Peli, 1995] Jaap Kamps and Gábor Peli. Qualitative Reasoning beyond the Physics Domain: The Den-


  12. sity Dependence Theory of Organizational Ecology. Proceedings of QR95, pages 114-122, 1995.

  13. [Krulwich et al., 1990] Bruce Krulwich, Gregg Collins, and Lawrence Birnbaum. Cross-Domain Transfer of Planning Strategies: Alternative Approaches. In Proceedings of the Twelfth Annual Conference of the Cognitive Science Society, pages 954-961, 1990.

  14. [Kuehne, et al., 2000] Sven Kuehne, Kenneth D. Forbus, Dedre Gentner, and Bryan Quinn. SEQL: Category learning as progressive abstraction using structure mapping. In Proceedings of the Twenty Second Annual Conference of the Cognitive Science Society, pages 770-775, August, 2000.

  15. [Langley et al., 2005] Pat Langley, Dongkyu Choi, and Seth Rogers. Interleaving Learning, Problem-Solving, and Execution in the ICARUS Architecture.  Technical Report, Computational Learning Laboratory, CSLI, Stanford University, CA. 2005.

  16. [Lenat, 1995] Douglas B. Lenat. CYC: A large-scale investment in knowledge infras tructure. Communications of the ACM 38(11):33–38, 1995.

  17. [Liu and Stone, 2006] Yaxin Liu and Peter Stone. ValueFunction-Based Transfer for Reinforcement Learning Using Structure Mapping. In Proceedings of the Twenty-First National Conference on Artificial Intelligence, pages 415-420, Boston, MA, 2006.

  18. [Muñoz-Avila, and  Aha, 2004] Hector Muñoz-Avila and David Aha. On the Role of Explanation for Hierarchical Case-Based Planning in Real-Time Strategy Games. In Proceedings of ECCBR-04 Workshop on Explanations in CBR, 2004.

  19. [Nason and Laird, 2005] Shelley Nason and John E. Laird. Soar-RL, Integrating Reinforcement Learning with Soar. Cognitive Systems Research, 6(1), pp.51-59, 2005.

  20. [Nau et al.,1999] Dana S. Nau, Yue Cao, Amnon Lotem, and Hector Muñoz-Avila. SHOP: Simple hierarchical ordered planner. In Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, pages 968-973, 1999.

  21. [Ram and Leake, 1995] A shwin Ram, and David Leake, eds., Goal-Driven Learning, MIT Press / Bradford Books, Cambridge MA. 1995.

  22. [Sutton, 1988] Richard S. Sutton. Learning to Predict by the Methods of Temporal Differences. Machine Learning, 3:9-44, 1988.

  23. [Ulam et al., 2005] Patrick Ulam, A shok Goel, Joshua Jones, and William Murdoch. Using Model-Based Reflection to Guide Reinforcement Learning. IJCAI Workshop on Reasoning, Representation, and Learning in Computer Games. Edinburgh, 2005.

  24. [Veloso, 1994] Manuela Veloso. Planning and Learning by Analogical Reasoning. Lecture Notes in A rtificial Intelligence No. 886. Springer-Verlag Berlin, 1994.