Image Image Image Image Image
Scroll to Top

回页面顶

推荐分享

24

2011
12月

无评论

归类于 推荐分享

撰自言合

图像带给人的感动

撰于2011年12月24日 | 无评论 | 归类于 推荐分享 | 撰自言合

序言1

JH博士,作者(来自理光的专栏)认识的一位图像处理领域研究人员来北京作会议发表,同时受邀到我们研究所做演讲。在我们驱车从他下榻宾馆前往研究所的路上,我告诉他行驶在前方一辆汽车的车牌首字“军”表示军用。他看后说道:我看到数字4在第一个汉字里面,这让我难以置信。它的回答让我第一次对此有所察觉。
025-001.jpg

图1: 汉字“军”,表示军队

这是个简体字,字中包含数字模样的“4”。JH博士把“军”解读成(b)所示。(c)是繁体字,目前仍在日本使用。

序言2

我已经在北京生活了3年。有时会饱受膝盖之痛好长时间,就暂时停止户外跑步。膝伤复原后,从开始慢慢在室内跑步机上运动,到重新开始久违的户外跑步,吃惊地发现沿途景物似乎都在摇晃(图2),如眩晕般无法固定视点。跑过几分钟后,我的视力终于恢复正常。自那以后,每当长时间停止后,再次开始户外活动时,相同的感受会又发生。

025-002.jpg

图2: 不稳定景象

在正常条件下,外面的景象看起来像(a)所示,但是当我经过长期休息重新开始户外跑步时,我看周围的景色像(b),直到几分钟后图像才变得稳定。如果眼睛习惯于振动景象,这是不会发生的。

从基本元素到字体

如我在前一篇专栏中所提到的(No. 24, “可见物于使见物”) 图像识别并非基于像素单位,而是更多基于某些综合元素组成的单位。然后对这些元素加以构造化,构成更加复杂的识别单位。以图2中的文字模式为例,每个字符的竖、横边缘模式就是元素。只要构成“军”字的各个笔画能够被识别,再根据笔画的相互位置关系就能识别出“军”字。

生活在当前信息时代的多数人每天都在使用文字,但是我们并非一边辨认笔画一边阅读。文字是把所有单元升级后达到对其瞬间识别。如果忽略细微差别,中国人或日本人能够轻易地识别出图3中的字符。出生在美国的JH博士对西亚字符不敏感,但却很熟悉字母与数字。这就是他之所以会看到图1A时反应为1B中的亚模式-用红色标识的数字“4”

025-003.jpg

图3: 组成汉字“军”的基本元素的一些例子

图中这些基本元素和笔画是相同的。这些组成基本模式的基本元素在图像识别中发挥重要作用。

人类视觉感知的另一个特征是对振动图像的快速、深入的模式识别。即振动环境下,视觉系统对模式实时追踪但似乎没有振动发生。在日常生活中,我们几乎意识不到自己的这种追踪能力。

结合序言2为例,由于长期只做室内运动,不太需要识别远处的景色。因此,即便图像在移动,也只需花费很少的追踪能量即可。突然开始户外运动时,远处移动的景物相对室内物体看起来较大。在能够扑捉这种景物之前,本应如图2(a)的图像变成了2(b)的样子。图像错乱造成人的眩晕感。人们相信这个过程是由大脑控制的。另外,如果要识别文字之类高级别、更加复杂的模式,大脑具有很高的稳定性,连手写字体这类不断变化的模式也能轻易识别出来。这是大脑具有分类功能的产物。

图4显示出这个强大的分类功能。图中央是一幅熊的照片,然后照片的周围环绕着一些图例。如果你仔细对比照片和图例会发现它们有很大不同。但是大多数人-无论国籍或年龄都把这些图例识别为熊。尽管很难解释为什们这些绘图会被识别为熊。

025-004.jpg

图4: 熊的照片和熊的图例

真熊的照片和图例并不相似,但是多数人认为这些图例是“熊”。

合成有意义的图像

如这些图例熊所示,人类的分类功能是强大的。这里还有另外一个例子。图5中,字母A显示被6条竖线所切分(a1)。为了用动态方式表现这个模式,一边水平方向移动如a2所示的纵长平面演示,一边在图5(a1)的位置闪动对应文字部分位置的图像,肯定能看到字母“A”。图5(b)就是一个例证。眼睛稍微离字母“A”远一点,任何人都将其识别出来。如果水平方向上平面演示的移动速度较慢并保持与a2相同时间间隔仅闪动文字部分,情况会怎样呢?你可能猜测字母形状会被压缩成水平状的(c)或 (d)。但它看起来仍然像(b),一个常见图像。如果是在完全黑暗的环境下做这个测试(尽管这需要一些训练),即便平面演示保持静止,字母”A“的模样仍然可见。如果是(c), (d)或最后一种情形,字母”A“朝左移动。

025-005.jpg

图5: 用平面移动演示方法演示字体

通过平面移动演示方法,在忽略字体移动速度前提下,字体被合成为定态。可以稳定地观察到(b) 模式而非(c)模式或 (d)模式。

你们中的有些人可能看过用在日本羽田机场前地下通道里的平面广告展示。当我第一次看到它时,非常吃惊于它的图像信号与车辆速度的同步准确性。事实上,图像同步是由人的大脑 控制的。一个更新版本的平面展示广告可以在以下地址看到:
http://journal.mycom.co.jp/articles/2007/08/15/siggraph04/002.html

为什们会发生这种现象?人类的眼睛持续振动,试图扑捉视野中所知模式,并且试图搜索各种模式来稳固感知到的图像。建立在大脑中的图像模式起到模版的作用,被用来在感知的图像中检索相同模式。在机体的帮助下,即使整个图像正在振动,感知的图像能够保持稳定。我们可以从一辆行驶的车上识别出车外的图像或者在快速浏览页面时保持阅读内容。当人们面对一个未知的复杂图像时,将会试图寻找一些可识别的特征。记得在我少年时代,曾经试图从屋顶木天花板的纹理中发现某些合理的东西。

图6展示了一个由脸部特征构成的人脸。通过改变组合,面部表情看起来是不同的,对吗?

025-006.jpg

图6: 由人脸各部分组成的人脸模式测试(樋川耕司氏作品)

把人脸各部分做适当组合,就合成各种表情。各部分组合的一些常用规则介绍在图例的下方。

图7展示了另外一类取决于地域和改变脸部各部分的面部特征表现。使用相同部分,结合基于修正后的类似特征,我努力展示出一个典型的亚裔和白种人脸部。

025-007.jpg

图7: 基于相同部分但不同修正规则的亚裔和白种人脸部表情测试

在图8中,我们会看到专职艺术家樋川耕司教授的艺术作品。

025-008.jpg

图8: 各种服装配件构成丰富多彩的表现(樋川耕司氏作品)

图像合成的另外一个困难是完成它所需人力成本。我相信Altamira Cave中的作品是一位天才的呕心之作。即使现在,特殊技能是成为一名专职画家的必需。但是我们无法期待绘画做到即刻记录。然而,我们现在使用一台相机就可以完成这个心愿,就可以克服过去最大的障碍之一,并且可以可以随心所欲选择图像解析度。

一幅图像感动别人

相比于文本,一幅图像只能提供模糊的信息。尽管如此,图像在某些时候能够给予人们强烈的冲击。在图像中,作为图例的主要构成元素—线条,所发挥的作用就像文本中的字符。只要线条组合得当,任何图例都可构成。最有名的例证之一连环画/漫画。连环画/漫画的核心特征是适宜的图例和文本组合,里面的图例经常被变形和突出。连环画/漫画是用文本包含丰富故事的艺术形式。

在古时,文本书写是由专业抄写员完成的。三千年过后,人人都能书写文本。字体发生了演变,如此以来可以让人们记住和使用。记述风格亦发生演变从而能够运用于各种独具魅力的文学作品中。现在,大多数绘画都是由被称为“画家“的专业人士作成。

我参观北京大学软件研究学院时,其中一名学生介绍了他的作品。然后他期望从我这里得到确认:“日本人在上班途中的汽车或地铁里都喜欢看漫画,这是真的吗?”一位教授也告诉我他的女儿坚持所有动画片迷都认为最伟大的英雄是柯南。你肯定是知道柯南的。“ 我的确知道这个名字,但是我吃惊于日本动画片在中国的巨大影响力。

图像表达方法会在不久的将来演化成如此高度吗?动画片或者漫画是潜在的目标,因为新生职业画家的数字非常巨大,未来将会营造一个更加适宜的培育环境。因为人人都用Word处理文档写作。未来图片处理器应该可以帮助我们描绘出想像与幻想式的表达。

并且已经有很多方法被人们所设想,例如3D图像组件目录表网址:
http://www.posemaniacs.com/blog/pose/),以及另外一个变体技术网址:
http://www.blackbeltsystems.com/bx_wi_mee.html)。
它们都是已有的可行化小例证。尽管技术的进展需要一定时间,但我对此充满期待。

此文来自理光的专栏文章

Tags |

留言评论