Advancing Large Language Model Agent via Iterative Contrastive Trajectory Optimization

[1] Song Y, Yin D, Yue X, et al. Trial and error: Exploration-based trajectory optimization for llm agents [J]. arXiv preprint arXiv:2403.02502, 2024. Song Y Yin D Yue X Trial and error: Exploration-based trajectory optimization for llm agents [J]. arXiv preprint arXiv:2403.02502 , 2024 . Search in Google Scholar

[2] Xiong W, Song Y, Zhao X, et al. Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [J]. arXiv preprint arXiv:2406.11176. Xiong W Song Y Zhao X Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [J]. arXiv preprint arXiv:2406.11176 . Search in Google Scholar

[3] Chen Y, Cheng C, Zhang Y, et al. A neural networkbased navigation approach for autonomous mobile robot systems [J]. Applied Sciences, 2022, 12(15): 7796. Chen Y Cheng C Zhang Y A neural networkbased navigation approach for autonomous mobile robot systems [J]. Applied Sciences , 2022 , 12 ( 15 ): 7796 . Search in Google Scholar

[4] Chen B, Shu C, Shareghi E, et al. Fireact: Toward language agent fine-tuning [J]. arXiv preprint arXiv:2310.05915, 2023. Chen B Shu C Shareghi E Fireact: Toward language agent fine-tuning [J]. arXiv preprint arXiv:2310.05915 , 2023 . Search in Google Scholar

[5] Zeng A, Liu M, Lu R, et al. Agenttuning: Enabling generalized agent abilities for llms [J]. arXiv preprint arXiv:2310.12823, 2023. Zeng A Liu M Lu R Agenttuning: Enabling generalized agent abilities for llms [J]. arXiv preprint arXiv:2310.12823 , 2023 . Search in Google Scholar

[6] Yin D, Brahman F, Ravichander A, et al. Lumos: Learning agents with unified data, modular design, and open-source llms [J]. arXiv preprint arXiv:2311.05657, 2023. Yin D Brahman F Ravichander A Lumos: Learning agents with unified data, modular design, and open-source llms [J]. arXiv preprint arXiv:2311.05657 , 2023 . Search in Google Scholar

[7] Fu H, Tang H, Hao J, et al. Towards effective context for meta-reinforcement learning: an approach based on contrastive learning [C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(8): 7457-7465. Fu H Tang H Hao J Towards effective context for meta-reinforcement learning: an approach based on contrastive learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence . 2021 , 35 ( 8 ): 7457 - 7465 . Search in Google Scholar

[8] Yang K, Klein D, Celikyilmaz A, et al. Rlcd: Reinforcement learning from contrast distillation for language model alignment [J]. arXiv preprint arXiv:2307.12950, 2023. Yang K Klein D Celikyilmaz A Rlcd: Reinforcement learning from contrast distillation for language model alignment [J]. arXiv preprint arXiv:2307.12950 , 2023 . Search in Google Scholar

[9] Wang R, Li H, Han X, et al. Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [J]. arXiv preprint arXiv:2402.11651, 2024. Wang R Li H Han X Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [J]. arXiv preprint arXiv:2402.11651 , 2024 . Search in Google Scholar

[10] Yao S, Zhao J, Yu D, et al. React: Synergizing reasoning and acting in language models [J]. arXiv preprint arXiv:2210.03629, 2022. Yao S Zhao J Yu D React: Synergizing reasoning and acting in language models [J]. arXiv preprint arXiv:2210.03629 , 2022 . Search in Google Scholar

[11] Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models [J]. arXiv preprint arXiv:2307.09288, 2023. Touvron H Martin L Stone K Llama 2: Open foundation and fine-tuned chat models [J]. arXiv preprint arXiv:2307.09288 , 2023 . Search in Google Scholar

[12] Yao S, Chen H, Yang J, et al. Webshop: Towards scalable real-world web interaction with grounded language agents [J]. Advances in Neural Information Processing Systems, 2022, 35: 20744-20757. Yao S Chen H Yang J Webshop: Towards scalable real-world web interaction with grounded language agents [J]. Advances in Neural Information Processing Systems , 2022 , 35 : 20744 - 20757 . Search in Google Scholar

[13] Wang R, Jansen P, Côté M A, et al. Scienceworld: Is your agent smarter than a 5th grader? [J]. arXiv preprint arXiv:2203.07540, 2022. Wang R Jansen P Côté M A Scienceworld: Is your agent smarter than a 5th grader? [J]. arXiv preprint arXiv:2203.07540 , 2022 . Search in Google Scholar

[14] Shridhar M, Yuan X, Côté M A, et al. Alfworld: Aligning text and embodied environments for interactive learning [J]. arXiv preprint arXiv:2010.03768, 2020. Shridhar M Yuan X Côté M A Alfworld: Aligning text and embodied environments for interactive learning [J]. arXiv preprint arXiv:2010.03768 , 2020 . Search in Google Scholar

Sprache:: Englisch

Zeitrahmen der Veröffentlichung:: 4 Hefte pro Jahr
Fachgebiete der Zeitschrift:: Informatik, Informatik, andere

Zeitschrift RSS Feed

Advancing Large Language Model Agent via Iterative Contrastive Trajectory Optimization

Chengang Jing

Xin Jing

Kun Li

Online veröffentlicht: 31. Dez. 2024

Seitenbereich: 19 - 27

DOI: https://doi.org/10.2478/ijanmc-2024-0033

SchlüsselwörterIterative Optimization, Large Language Models, Agent

© 2024 Chengang Jing et al., published by Sciendo

This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Schlüsselwörter
Iterative Optimization, Large Language Models, Agent