院况简介
1949年,伴随着新中国的诞生,中国科学院成立。
作为国家在科学技术方面的最高学术机构和全国自然科学与高新技术的综合研究与发展中心,建院以来,中国科学院时刻牢记使命,与科学共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全做出了不可替代的重要贡献。/ 更多简介 +
院领导集体
创新单元
科技奖励
科技成果转移转化亮点工作/ 更多
学部组织
工作动态/ 更多
中国科学院学部
中国科学院院部
语音播报
10月23日,微软亚洲研究院首席研究员、研究经理和知识计算组主任林钦佑到访中国科学院自动化研究所,作题为“数据到文本——从结构化数据中自动生成文本”(Data2Text – Automatic Text Generation from Structured Data)的分享报告。报告由模式识别国家重点实验室研究员赵军主持。
报告围绕“结构化数据自动生成文本”这一主题进行。报告介绍说,以购物网站产品结构化数据的文本描述为例,统计发现,目前11%的产品只有结构化数据,没有描述信息,现有的描述信息50%不足30个词,难以得到产品的详细信息。报告将“数据到文本”的应用场景扩展到篮球赛况播报、会议概况、chatbot(聊天机器人)的结构化数据生成文本,从统计数据和应用场景说明这一主题的重要性。
在报告中,林钦佑比较了“数据到文本”两种技术手段:生成模型和模板方法。报告指出,生成模型语言流畅度,不能保证正确性;而模板方法能同时保证准确性和流利度,并且限定领域的模板容易获取,广泛用于工业产品。报告重点介绍了这一任务的四个重大挑战:知识(knowledge)、多样化(variety)、视野(insight)、情境(contextual),并详细解释了这四个挑战的具体内容,提供了可能的解决方案。报告介绍了其团队研发的“Data2Text Service”,从“说什么”到“怎么说”两个角度,讲解了属性排序、模板选择、属性依赖、知识写入等步骤。
最后,报告还介绍了“数据到文本”任务的评价,重点分析了现有评价标准的缺陷,并期望提出自动、有效的评价指标。
扫一扫在手机打开当前页
© 1996 - 2020 中国科学院 版权所有 京ICP备05002857号 京公网安备110402500047号
联系我们 地址:北京市三里河路52号 邮编:100864