微软亚洲研究院的30项创新技术详解（转） -- 程序加速器-- 编程爱好者博客

·电视迷们的福音：点播视/音频搜索

在10年之内，互联网将成为一个浩大的视/音频档案库，其内容将覆盖主流媒体和终端用户内容，而个人电脑、电视和移动设备之间的界限将被抹平。搜索，将成为从这一巨大的信息库中找到所需内容的唯一途径。

今天，大多数的视/音频搜索引擎依赖于人工创建的文字信息，比如包含视/音频网页的环绕文字，或者媒体注册源的描述性文字。而微软亚洲研究院的这一最新的视/音频搜索将改变用户从互联网上搜索视/音频的方式，它利用了语音识别和信息检索相关技术，使搜索视频语音内容中的文字成为可能；同时，用户可以通过遥控器直接在电视上使用搜索引擎，这也为观赏视频内容提供了极大的方便。

·照片搜索

Photo2Search是微软亚洲研究院开发的一个全新的互联网服务。通过这种服务，移动用户可以使用照相手机实时的查询大规模图像数据库。该技术有着非常广阔的实际应用，包括海报，建筑，店面等。例如，用户只需简单的拍摄一张餐馆的照片，即可通过Photo2Search在数据库中根据其局部特征搜寻包含同样建筑的图片，经由我们为图像数据库建立的一个高效索引，用户能够快速获得该图片的搜索结果。通过图片的注释，用户可以获得和餐馆或其所在地点相关的更多信息，比如营业时间、附近的其它餐馆和用户评价等。

·手机搜索

目前，人们使用具有网页浏览功能的移动设备，即可直接访问搜索引擎获取所要寻找的信息，但在这些设备上，搜索结果并不像在桌面计算机上那样易于访问。而微软亚洲研究院的“手机搜索”技术，可以通过计算，自动分析出网页中各个部分的功能和其相关性，进而采用更加有效的信息表达方式把网页内容展示给用户。

·基于结构传播的图像完成

基于结构传播的图像完成是一种数字图像修复、擦除技术。其结构传播由3部分组成：首先，用户在图像上画一些曲线或线段来指定图像上缺失的显著结构信息；然后，基于贝叶斯信任传播算法，结构传播技术沿着用户画的曲线合成丢失的图像结构信息；最后，我们使用纹理合成技术合成所有剩余的图像纹理信息——基于结构传播的图像完成是当前世界上最好的数字图像修复技术之一。

·视频对象分割和粘贴

视频对象分割和粘贴技术可以将一个运动物体从一段视频序列中分割出来，并粘贴到其他任意图像或视频序列中。该技术由3部分组成：首先，我们将视频序列看作一个三维空时数据，使用基于图论的三维分割算法将视频序列中的前景和背景分离开来；然后，我们使用局部三维分割算法在每一帧上改进，细化分割结果；最后，以精细抠图算法来提取高精度的前景运动物体的颜色和边缘信息。

·微软对联

你能够想象计算机来跟你对对联吗？“微软对联”是由微软亚洲研究院自然语言组研究开发的计算机自动对联系统，也是世界上第一套人工智能自动对联系统。具体而言，用户给定上联，然后系统自动产生下联；或者用户也可通过交互手段优选字词来生成满意的下联。本项技术可以用于在线数字游戏，以及服务于中小学以及外国人的智能汉语教学。
·平板地图与基于地理位置的服务

地图软件已经成为最流行的应用软件之一，并走入人们的日常生活。地图软件的运行环境已经从桌面系统（例如微软开发的MapPoint）扩展到Web（例如微软开发的Virtual Earth和Google开发的Google Map）和移动计算环境（例如微软开发的MapPoint for Windows Mobile）。然而这种实现方式存在诸多缺陷：目前大多数地图软件的实现仅仅采用了基于键盘－鼠标的操作模式；此外，现有实现方式中，缺乏动态信息的提供，而仅仅提供静态且源于单一信息源的地理关联信息。

作为微软亚洲研究院创新技术孵化研究组的创新研究成果之一，Tablet Map提供了一种基于手写操作的图形化用户界面设计，从而使用户在使用诸如Tablet PC这种基于手写笔的计算设备时，能够获得更好地图浏览、路由和导航服务；该软件能够实时提供源自不同信息源的基于地理位置的信息；此外，Tablet Map还提供了一种灵活的接口设计从而便于将源自不同Web Services（例如eBay）的基于地理位置的信息与地图服务进行集成。本系统借助微软亚洲研究院所研发的索引和搜索技术，从而能够提供高性能的地理位置敏感的信息检索服务。

·美式橄榄球阵法

美式橄榄球阵法是平板电脑上极炫极酷的一个体育应用，它充分体现了数字墨水对人机交互体验的高度提升。橄榄球阵法通常由多种进攻和防守阵法组成，教练用它指导队员进行训练和比赛，因此它对整个球队至关重要。微软亚洲研究院的美式橄榄球阵法这一应用，不仅使教练能够充分用计算机对阵法进行有效的存储和组织，还可以使教练能够像以前一样用笔对阵法进行各种操作。此外，该应用能够用动画效果对各种阵法进行仿真，因而教练和队员不需下场即能对各种阵法如何运作有很好的理解。

·手写数学工具识别器

在计算机的日常使用过程中，用户特别是学生、教师、工程师和科研人员，经常会有将数学公式输入计算机的需求。现行的两种输入方法——特殊语言法和图形界面法，都不及手写数学公式自然、简便。微软亚洲研究院基于模式识别技术的“手写数学公式识别器”，为用户提供了全新的手写输入功能。当用户在平板电脑上手写数学公式之后，手写数学公式识别器就可以自动识别出用户所写的公式。手写数学公式识别器作为Microsoft Education Pack的应用之一，已经于2005年7月发布，用户可以在微软公司的网站免费下载。

·动态个人主页

帮助用户组织个人感兴趣的信息是一项非常辛苦的工作。微软亚洲研究院提供了一种半自动化的解决方案，叫做“动态个人主页”，能够帮助用户从一组网页中抽取他感兴趣的内容，并组织成一个新的页面。当前的Live.com只能处理XML结构的数据，而我们所研发的系统已经可以处理HTML格式的页面，此外，该系统还可以自动检测页面内容更新的情况，并自动更新组织成的新页面。

·视频聊天中的视觉特效

长期以来，鲁棒、实时的3D人脸跟踪，以及将用户从背景中分离出来，是非常有挑战性的计算机视觉研究课题。而这些技术有着广泛的应用场景，比如视频游戏、视频聊天等等。现有的一些系统要么非常耗时，要么非常容易失败。微软亚洲研究院的技术创新已经改变了这一现状——通过将图像分割技术与物体跟踪技术相融合，我们开发出一套鲁棒、实时的系统，有效地解决上述的研究难题。该系统可以通过MSN视频聊天进行演示。

·动态场景中的预计算阴影场

软影绘制大大增强了计算机生成图像的真实感，因此在很多计算机图形应用中都十分重要，对游戏而言尤其如此。然而，在动态场景中计算由环境光源和普通局部光源共同产生的软影是非常困难的，这是因为对大面积光源的积分非常耗时，而场景改变时对预计算结果进行重用和更新也是很大的开销。微软亚洲研究院为实时软影绘制开发了一项新的技术，该技术为场景中的每个实体建立了一个和场景状态无关的阴影场，从而避免了运行时对预计算结果进行更新的开销。

·贴图蒙太奇

纹理贴图能够极大提高3D模型的真实感和丰富它的表面细节，这种技术已经广泛应用于电影和游戏中。但是，将多张来自现实生活的图片贴到一个3D模型上，并且达到低的图像视觉扭曲，一直以来都是一个非常痛苦且耗时的工作，这是因为整个过程完全依赖于数字艺术家的手工操作，生产效率非常低。为此，微软亚洲研究院开发了“贴图蒙太奇”技术，它以几乎全自动的方式工作，能够将多幅图片无缝的贴图在任意复杂的3D模型上，整个过程只需非常少量的人工交互，大大提高了生产效率。

·视觉仿真

做旧技术通过给虚拟场景添加岁月留下的痕迹，比如污渍、锈迹、裂缝、划痕来增强它的真实感。而微软亚洲研究院所开发的是一种能够很好模拟许多变旧现象的虚拟仿真技术，它通过在场景中跟踪大量我们称为γ粒子的特殊粒子来模拟物体变旧过程，这些粒子能够在场景中传播变旧信息。利用这种技术，我们能构造与场景几何相符的变旧效果，设计各种污染源——许多目前技术很难实现的效果都可以通过γ粒子跟踪获得，比如全局污渍渗透、复杂的多重变旧现象等；此外，γ粒子跟踪技术不止能够模拟表面的变旧现象，还能够模拟岁月给物体带来的几何形变。

·新闻搜索

为了更好的展示新闻搜索的结果，微软亚洲研究院设计了一个多媒体的新闻阅读器。在该阅读器中，新闻文字、地图信息、新闻图片以及背景音乐被有机的结合在一起，从而为用户提供一个全新的阅读新闻的体验。

·搜索结果的图片式摘要

传统的网络搜索引擎往往忽略了网页中很多的有用信息，比如图片、Flash动画等等；同样，多媒体搜索引擎则往往忽略了文字信息，使用户很难理解反馈回来的搜索结果。而微软亚洲研究院的Image Snippet技术则彻底改变了这种搜索体验——通过对搜索引擎的访问记录分析，我们发现用户的访问主要集中在网页搜索上，因此我们为网页搜索设计了一个新的界面，用以展示搜索结果。我们从搜索引擎返回的网页中，抽取出一些最有价值的图像插入搜索结果中，这样的界面设计有效地利用了网页中的非文字信息，迄今已经受到测评用户的普遍好评。

·图像搜索结果聚类

该图像搜索结果技术能够实时地将某搜索引擎的结果聚类。它弥补了传统搜索引擎将搜索结果显示成列表方式、从而难以浏览的缺陷。而我们的技术将搜索结果组织成层次的方式，使用户能够迅速确定所需要的结果的位置。

·搜索结果聚类

搜索结果聚类技术由微软亚洲研究院网络搜索与挖掘组开发。它对搜索引擎的查询结果在线进行分组，并为这些分组选取合适的命名。该技术把传统的搜索结果表达方式变得更加易于浏览。常规的聚类算法并不适合这个应用，因为搜索引擎反馈回的摘要比较短小，而且一般的聚类算法运算复杂度较高难以实现实时计算。我们开发的技术从另一方面解决了这个问题。我们的基本做法是首先找到典型的独立主题，然后再把已有的搜索结果按照一定规则分配到这些主题之下，从而实现层次化的浏览界面。
·视频搜索

视频搜索正在成为互联网搜索领域备受关注的焦点之一，然而其局限性也日益突出：首先，目前的视频搜索引擎全部都是基于直接文本（包括相关网页文本，视频脚本，或语音识别等）索引，这些能够直接获取的文本信息常常与真正的视频内容大相径庭；另一方面，由于视频有时间性，简单的视频搜索的结果列表不能有效帮助用户快速了解这些视频的内容，因而难以尽快找到想要的视频；此外，包括视频搜索在内的在线视频服务的商业模式仍不清晰，在线视频广告的相关性远不令人满意。

经过多年的研究，微软亚洲研究院的视频搜索技术能够：

1.更有效地为视频建立索引；

2.更高效地组织和呈现视频搜索结果；

3.提供更智能的视频广告策略，并实现互联网上高效的视频编辑和共享。

·购物搜索

今天，无数有价值的商品信息散布在互联网得各个角落，但用户仍然很难从互联网上有效获得这些产品信息和进行比较购物。通过多年的积累，微软亚洲研究院建立了一个强大的工具集，包括分类、抽取、集成、排列等等，从而有效地从互联网中发掘产品信息，创建全新的商品搜索引擎，使用户通过Shopping Search能够获得轻松、便捷的购物体验。

·伪均匀半透明材质的建模与绘制

在真实世界中，大量的物体是半透明的并具有丰富的表面的细节，象面包，海绵，等等。这些物体在不同的光照条件下，呈现出复杂的光照效果。如何对这类材质建模是计算机图形学里面一个具有挑战性的问题。在这里，我们展示了我们新近开发的一项技术，可以对这类材质进行有效的建模，并从真实的物体样本中获得材质特性。从而使人们第一次可以在计算机上快速生成这类物体的真实图像。

·卡通变形传输

变形技术是计算机动画的关键性技术之一。许多好莱坞电影中的特效都依赖于变形算法实现。其中，把在一个二维或者三维物体上制作好的变形动画应用到另外一个物体上，是计算机动画中的热点研究话题，它在电影工业中有很重要的应用价值。微软亚洲研究院发明了一项微分域三维物体变形技术，能够将卡通中的二维动画重用到三维物体上。仅需简单地在卡通的二维角色和三维物体之间定义几条对应曲线，该项技术就能够自动生成三维物体

·方言语音合成系统

语音合成技术已经在许多领域被广泛的应用，最新的应用扩展到了娱乐领域。在新的应用领域：诸如可以说话的游戏，电子书阅读器，语音存储管理服务或语音多媒体信息业务等领域中，丰富的语音变化的的需要成为了语音合成系统的一个重要特征。绝大多数中文语音合成系统只能说标准的普通话，而我们这里展示的语音合成系统将会说很多北方方言

·个性化的语音合成系统

一般的语音合成系统说话的方式很像播音员在朗读新闻。然而，在某些应用场合，用户并不满足于这样的声音，他们希望计算机可以用声情并茂的声音向他们的孩子说故事，或者希望用他们本人的声音给家人或朋友读电子邮件。这就是个性化语音合成系统。微软亚洲研究院语音组开发的语音合成系统木兰（Mulan）将被预装在下一代的微软操作系统Windows Vista中。

·全分辨率视频稳定

随着数字图像的不断普及，视频信号增强技术变得越来越重要。而视频稳定是最重要的增强技术之一，它消除了图像不必要的抖动，并补偿丢失信息，产生一段新的高质量视频。通常，手持摄像机拍摄的家庭视频，由于不可避免的抖动，会产生不理想的视频图像。为了能够更好的满足家庭用户的需求，微软亚洲研究院开发了一种实用的视频稳定技术，以产生高质量的全分辨率稳定视频。
·结合手写与语音的汉字输入

对汉字输入来说，清晰的手写方式可以相当准确，但速度受到限制；而语音输入虽然速度较快，但准确程度有待提高。鉴于这两种方式可以取长补短，微软亚洲研究院语音组开发了两者结合的输入方式。我们将语音的识别结果和手写的识别结果在后验概率意义下相融合，从而提高了输入的速度和准确率。

·双语语音识别

在国际合作越来越广泛的今天，许多人的电话本里既有中国人，也有外国人。基于微软亚洲研究院的无缝双语识别引擎，我们开发了应用于掌上设备的语音拨号软件。该软件可用英语或汉语呼叫联系人，具有可靠的识别性能。另外，我们还提供了能自动对不在目录中的呼叫进行拒识的功能。

·基于手机的移动计算

利用最新的无线网络技术，微软亚洲研究院无线与网络组开发了一系列应用原型系统，帮助用户使用手机随时随地访问和控制他们计算机上的数据和应用程序。通过手机，用户可以：

·远程浏览和操纵文件

·获取和控制远程计算机上的电子邮件

·控制幻灯片的演示

·控制媒体中心计算机

·完成远程桌面搜索

·进行远程监控

·闪光抠图

抠图是一种广泛使用的图像合成技术，主要应用于专业的平面设计和普通用户数字图像处理等领域。微软亚洲研究院的闪光抠图技术是指利用一对闪光/不闪光图像抽取前景图像。改技术利用了一个非常简单的原理：如果背景距一对闪光/不闪光图像比较远，则只有前景物体被闪光灯改变亮度。基于这个原理，我们提出联合贝叶斯闪光抠图技术，能够非常有效的从一对闪光/不闪光图像中抽取前景图像，甚至在前景与背景非常相似或背景非常复杂的情况下仍可有效进行抽取。闪光抠图技术可以帮助用户即便使用普通数码相和闪光灯，也可以非常容易的完成室内/室外的抠图任务。

·网格环境下基于Windows Mobile的移动导航服务系统

该系统由同济大学与微软亚洲研究院联合开发。面对目前智能交通和移动导航巨大的市场需求，其意义在于依托网格计算技术的支撑，依赖传感器网络、自组织网络、宽带无线通讯技术、多媒体技术等尖端科技，实现Windows Mobile系统上面向手持和车载用户的移动导航系统。

该项目依托上海市交通信息网格，利用网格计算技术，为信息服务提供技术支撑。项目中建立的基于Ad Hoc技术的车辆网络，突破了传统的导航系统，只通过信息中心获取信息的集中控制方式，网络中的任意一个节点均可互通。例如：某地发生交通事故，某地交通拥堵等驾驶员观察到的交通信息，可以实时通过网络共享。此外，在终端设备上，除具备经典的定位导航功能外，其还集成了移动电话、音视频播放、网络浏览等众多附加功能。而在人机交互方面，则采用了全语音的播报方式。

·绘制现实

绘制草图是建筑师在概念设计阶段最自然和最常用的方法，但是目前的绝大多数计算机辅助设计系统无法处理以草图方式的输入数据。而微软亚洲研究院所开发的一个全新的概念和方法叫做“绘制现实”。该方法可以处理以草图方式的输入数据，并产生真实感的效果，即通过直接处理输入建筑师手绘的草图来产生具有照片真实感的结果。整个系统分为三个部分，即：草图输入、几何重建、以及交互绘制真实感效果。

·桌面照片搜索管理

使用MSN桌面搜索，用户可以像网络搜索一样容易地查找到他们计算机上的任何文件，包括电子邮件、约会日程、照片、文档等。然而，被桌面搜索所索引的照片目前还只能通过文件名、目录名以及手工标注来进行搜索。为了支持更先进的照片检索，我们在MSN桌面搜索中集成了诸多基于内容的分析技术，包括照片/图形分类、室内室外分类、城市风景分类、图像质量评估以及人脸检测等。通过自动被关联到照片上的关键词，用户可以更容易、更快捷地搜索到他们计算机上的照片。

·Libra 学术搜索

Libra 学术搜索引擎是用来更加智能的获取在计算机科学领域内的各种关于论文、科学家、会议、期刊和学术兴趣圈的信息。与传统的页面级搜索引擎相比，Libra使得对象级别的信息查询成为可能。它可以帮你：

·找到一个学术领域内的顶尖科学家、会议和期刊;

·了解一个学术兴趣圈的兴起与发展；

·更准确地找到你感兴趣的论文；

·发现正在崛起的学术新星和时下热点的论文

·服务台

Information Desk是关于企业内部网搜索的一个研究原型系统，它由微软亚洲研究院和微软SharePoint Search组共同开发，现在试运行在微软公司内部网MSWeb上。Information Desk能自动从网站中的文件中抽取领域信息和文件元数据。领域信息包括定义、缩写和主页，文件元数据则包括标题、作者以及关键词，而适用的文件格式包括Word 、PowerPoint、HTML。Information Desk能有效利用抽取的信息帮助SharePoint用户搜索企业内部网信息, 从而为用户提供更好的服务。比如：“Information Desk能解答诸如“这个术语是什么意思？”，“这个产品组主页在哪？”，以及“谁了解这项技术？”之类的问题。目前以MSWeb作实验，已经索引了6,000,000以上的文件。这些技术以统计学习技术为基础，从而能够比较容易地应用到其它领域。
·色彩草图

如何把一幅用户给定的照片转换成为一张具有手绘风格的艺术作品是一个非常有趣和极具挑战性的问题。微软亚洲研究院的Color Sketching即计算机绘画系统，则可以实现将一张用户给定的照片转换成具有特定手绘风格的作品。为了做到这一点，我们需要对图像的每个区域的形状和颜色进行风格化处理：首先是把图像分割成不同的彩色区域。然后在此基础上提出了一个两步算法——在第一步，我们运用一个基于亮度计算的方法来收缩每个彩色区域的边界线，以分别突出鲜亮和阴影地带，这使得图片整体效果更具有手绘草图艺术的风格；第二步，使用色彩转移算法来强调主体的内容并自动获得视觉上令人舒适的色彩组合。

·水墨动画在游戏中的应用

该课题由北京电影学院与微软亚洲研究院联合开发，力求在中国水墨画和电子游戏之间找到一个结合点，将水墨绘画的风格应用到现代娱乐中。我们致力于把中国传统的文化和视觉形式与现代的娱乐精神结合在一起。这是数字和水墨的融合，也是现代技术与中国传统文化的交融。该课题在电脑游戏中应用的研究，将给游戏制作者提供一套完整的制作流程，促使相关的游戏画面制作技术，比如建模、渲染等更加成熟并走向突破。其研究涉及到下列议题：

·中国传统水墨动画的艺术特色及其和游戏动画的结合点;

·中国传统水墨动画的艺术特色及其和游戏动画的结合点;

·水墨动画对场景设计和角色设计的影响;

·水墨动画对互动性的影响;

·在游戏动画中运用水墨风格所需解决的相关技术问题。

·虚拟奥运博物馆

虚拟奥运博物馆是北京08年29届奥运会的建设项目，由北京航空航天大学与微软亚洲研究院联合开发。它基于Internet展示，集科技、娱乐、教育于一体。其目标是建立世界上第一个在多文化背景之下介绍奥林匹克运动会的历史及发展的虚拟博物馆。其中：

虚拟跳远系统是博物馆中对古希腊奥运会跳远项目的三维复原与重现。我们采用运动捕获技术来获取真实的人体运动数据，并针对运动数据的重用与合成开展了研究。通过制作运动编辑工具，实现运动数据的重用与合成，使得同一运动数据可以应用到不同三维角色，并可以在不同的运动数据片断之间平滑过渡。基于这些技术我们制作了一个虚拟跳远系统，实现了人机交互。

跪射秦俑展示系统：为展现中国的古代体育，我们使用三维扫描仪获取了彩色跪射秦俑文物模型的三维数据。通过对多角度扫描获取多个数据块的自动拼接、模型自遮挡产生模型漏洞的修复，以及高分辨率纹理自动映射等问题的研究，最终实现了一个彩色跪射秦俑三维模型的展示系统。

·植物叶子的实时渲染

真实感的叶子渲染需要模拟叶面的复杂模型和精确的光照计算，因而该课题一直是计算机图形学的一大难题，在有实时需求的情况下该问题显得尤其困难。微软亚洲研究院的Real-Time Rendering of Plant Leaves技术提供了一个渲染体系从而解决了这一难题。该技术可以在全局光照的情况下实时渲染叶子。具体而言：

对叶子的表面特性，我们提出了一种参数化的模型，以及空间可变的双向散射和透射函数(BRDF/BTDF)。这些函数分析了叶子的外表面和内表面的光照特性，而且可以从真实的叶子中测量得到。更重要的是，这种光照特性的表达十分紧凑，而且可以用图形硬件来实现实时的加速渲染，达到很高的渲染速度。

对于全局光照，我们扩展了预计算的光辐射传播方法(PRT)来渲染全频率的光照效果。我们把光照分解为低频的环境光和高频的太阳光两个部分。太阳光最终被分解为直接光照和非直接光照两部分。非直接光照我们用PRT实现，对直接的光照部分,我们提出了一种新的预计算的光可见性卷积方法(LVC)实现。

博客介绍

正文

微软亚洲研究院的30项创新技术详解（转）2006-05-19 10:09:00

评论