`
coolerbaosi
  • 浏览: 730732 次
文章分类
社区版块
存档分类
最新评论

[转]搜索引擎的终极使命--骆轶航

 
阅读更多

导读:当搜索引擎洞悉人性、心理与社会,它会变成什么? 当你向互联网上传一个页面,来自世界各地的无数“蜘蛛”便会蜂拥而至。它们抓取并复制你的网页,跟踪着网页中的链接,悄悄地爬上更多的页面,用触角将它们纳入索引数据库。数据库像轰鸣的机器,拆解网页上的文字内容、标记关键词的位置、字体和颜色,并生成庞大的表格。这时,你输入一个单词,点击Google或百度上的“搜索”按钮,它会在0.2秒内得到响应,带着单词奔向索引数据库的每个神经末梢,检索到所有包含搜索词的网页,依据它们的浏览次数与关联性等一系列算法确定网页级别、排列出顺序,最终按你期望的格式呈现在网页上。这就是一个“关键词”的云端之旅。在过去的10多年里,类似的旅程总共进行过数十万亿次。它催生了搜索引擎的先驱Overture,成就了本世纪最早期的创新明星Google,还有Yandex、Navar和百度等来自全球各地的Google效仿者。它让搜索引擎成为人们最依赖的互联网工具,以及推动人类信息自由流动的传福音者…… 但现在,这一切可能都不再重要了。设想一下,当你同时打开RSS订阅工具、Twitter(新浪微博)和Facebook(开心网)坐在电脑前的时候,你更倾向于用哪种方式获得信息?那些通过社交工具推送到你面前的内容,是不是通常比你主动搜索的信息更有价值?你搜索“美洲豹最便宜的价格,”得到的结果是车还是棒球杆?如果你对腾讯与360的战争完全没兴趣的话,在你搜索“周鸿祎”的时候,真的一定希望“马化腾”跳出来吗? 这就是当下的搜索引擎在几何级网页数量爆炸时面临的困境:即便搜索引擎优化(SEO)工具越来越普遍地被网页设计者们纯熟地应用,但它仍然不能确保人们在第一时间搜索到他们需要的信息——甚至,成功几率越来越低。 “目前上万亿的网页,其中大约有250亿的页面可被检索,有可能出现在用户搜索结果里的页面,最多占5%,未来几年这个数字甚至会降低到1%以下,”微软亚洲研究院常务副院长马维英说。当下的搜索引擎技术就像图书馆检索那样为所有的书建立检索码,但最后有可能带给用户的价值越来越少——它被持续膨胀的网页数量稀释了。那么,未来人们需要什么样的搜索引擎? Google试图提供最新的解决方案是:超快速的自动搜索。Google首席执行官施密特在最近的一次演讲中提醒人们永远不要低估速度对搜索的重要性。他还认为,搜索最终将不仅仅是搜索网页,而是个人的几乎所有信息——包括电子邮件、音乐和你关注的话题。在得到你的允许后,它将成为你专属你个人的搜索。这似乎解决了搜索引擎的个性化需求和匹配问题,但Google未曾真正提及的是:与任何一类以“你”为中心的媒介相同,“你搜索”需要建立在社交网络化的基础之上——例如你搜索到的内容被你的朋友推荐,它会在搜索结果中得到提升,从而进入你个人搜索的优先级。在这个过程中,朋友的“顶”就进入了搜索引擎,成为整个搜索的一部分。但奉逻辑学与数学为宗教的Google却并不擅长社交网络领域——它甚至站在全球最大社交网站Facebook的对立面。让搜索“社交化”意味着赋予搜索引擎社会学和心理学的属性,而这会改变Google的基本逻辑。事实上,搜索引擎领域逻辑更替的核心是:搜索引擎将越来越通晓人类的语言和意图,为用户抓取他们最想知道的网页内容,甚至能识别语音、图像及表情等非文本材料——不但返回更精确的文本结果,还包括大量的多媒体内容。越来越多中小型公司试图沿着这条道路证明Google代表的当下“客观主义”搜索技术的简陋:当你在一家名为Powerset的搜索引擎网站搜索“谁曾打败过安德烈·阿加西(Andre Agassi,美国著名职业网球运动员)”的时候,呈现在第一位的搜索结果是另一位网球运动员皮特·桑普拉斯(Pete Sampras)的页面。而在Google上,最前面的结果仍然是阿加西的个人信息。如果在另一家搜索引擎Cognition的页面上输入相关的法律和诉讼问题,也能得到相关条款的精确回应。这就是人们通常所谓的“语义搜索”,但割据的小型语义搜索网站采集的信息量有限,并不足以在全面抗衡Google这样的巨头。但它们被召集在一面旗帜下,意义就完全不同了。这个“召集者”不是别人,正是在互联网时代落寞许久的巨头微软。在收购雅虎的交易失败后,微软对互联网和搜索引擎的布局走向了一条隐蔽但颇具技巧的道路。2008年7月,微软宣布收购上文中提到的语义搜索引擎Powerset。紧接着又推出了购物比较引擎Live Cashback、旅游搜索引擎Farecast以及健康搜索引擎health.live.com等基于语义的搜索分支。2009年6月微软发布全新搜索品牌Bing之后,它们又被整合进入Bing的框架体系。但它们尚未构成一个完整的搜索产品。这是因为语义搜索技术的处理能力和速度仍是主要缺点,有时甚至需要长达20秒才能分析完一个页面。但微软的不同在于,它有能力投资更大型的服务器集群,这使语义搜索成为微软在搜索引擎领域树立的壁——当然,你也可以把它看作微软搜索引擎计划的Plan B。不容忽视的是,支持微软在语义搜索领域有望抢先获得一席之地的,是它背后的基础研究力量。在基础的计算科学领域,语义搜索并非一个崭新的话题。至少在微软内部,围绕它的研究至少已经有10多年的历史。而现在,是它们集中爆发并转化为现实产品的时候了。 “尽管人们不该让科学家预测一项研究计划转化为现实产品的周期有多长,但是我们在搜索引擎领域的多年基础研究,正好到了收获果实的时候,因为人们对搜索的需求正在发生变化,这就是你现在看到的一切。”微软全球高级副总裁里克·雷斯特(Rick Rashid)对《环球企业家》说。【感知搜索】至少在目前,微软相信它能在语义搜索上扳回一局的原因,是因为搜索引擎技术的门槛并非轻易地能被任何玩家企及。在雷斯特看来,搜索引擎的技术至少在四个方面设置了门槛,并把大量试图觊觎这一领域的玩家过滤在了最终的游戏之外:其一是服务器抓取数据的能力,它将不仅仅来自普通网页,还将来自各类垂直的数据库与社交网站中的关键信息;其二是在几何级增长的互联网数据和信息爆炸面前维系处理它们的速度;其三是巨额投资在全球各地建设大规模的服务器集群;最后一点,是能追踪分析用户的行为与心理,通晓用户的意图和心理。“而这也恰恰是语义搜索的基础,”雷斯特对本刊说。而有了庞大的服务器集群,也能够保证处理几何级增长信息的速度,这种能感知人们输入语言意图的“智慧搜索”,又将如何实现? 微软给出的答案是:重新制定搜索引擎的规则。 “搜索引擎必须了解到底需要在网上完成什么样的任务,我们现在需要看到的是一个任务,然后帮助用户做出决策并采取行动,而不是给用户十个链接再让他们逐个打开去寻找信息是否有用,”微软亚洲研究院常务副院长马维英对《环球企业家》说,“这有机会对搜索的格局产生颠覆式的创新。” 这意味着当下搜索引擎的原理从一开始就被打破了——搜索的起点将不再是关键词,而是一个包含着关键词的短文本和信息群,机器需要通过对它的分析和判断,再排列出相应的文本和网页顺序,推送到用户的浏览器上。也就是说,必应(Bing)将更像是一个路由器:它了解用户的搜索目的,把目的与任务结合起来,以更多的搜索表现形式,理解搜索目的,抽取出所有的知识,把知识按照目的组织起来,甚至提供一个新的搜索生态系统。它对研究人员来说是完全不同的工作流程。传统互联网搜索的最小排序单元是网页,但当搜索的对象(entity)从网页转移到某一个人、事物和现象的时候,尽管搜索出结果仍然是网页,但它需要机器对相关的内容进行知识抽取、整合并总结,以一套完整的框架性结构的呈现在网页上。其中,搜索与社交网络的结合,以及专业问答类社区可能会发挥更重要的价值。至少在微软内部,实现这一切并不容易。搜索团队必须渗透到微软研究院的基础架构、机器学习、自然语言等领域的大量核心资源当中。至少,它得允许研究员和工程师轻松地修改代码,这是在微软第一代搜索引擎的架构中难以实现的。以微软即将发布的“学术搜索”为例:它旨在帮助用户快速找到某个学术研究领域内的顶尖学者、学术会议和期刊,获得一个学术领域的兴趣与发展的详细信息,发现某个研究领域的学术论文和学术新星。它是完全建立在“对象”基础上的搜索,甚至可以搜索研究人员之间的关系、论文的共同作者,以及哪所院校在这某个领域研究最出色,过去五年哪些机构排名上升等相当“琐碎”的信息——只要你向搜索引擎提出这些问题。更现实的应用是微软的中文旅游搜索——它没有抓取浩如烟海的旅游网页信息,而是将抓取的对象锁定在社交网站和个人博客上的20多万篇网友游记,从中提炼出超过3万个热门景点的旅游状况。当用户提出针对某一景点的旅游问题时,它会自动抽取相应的信息,组合答案呈现给用户。它还与必应(Bing)地图相结合,鼓励网友上传旅游路线和图片,创建旅行计划,以期进一步丰富旅游搜索的信息资源和语义库。 “它会提供给你最终的答案,直接找出答案的结果,而且完全不同于社区问答类产品,是搜索的结果,”微软亚洲研究院院长洪小文对《环球企业家》说。而这种颠覆式的数据挖掘、知识提取与算法逻辑,甚至使人们对多媒体的感知也可以通过搜索的形式呈现。微软研究院还开发了一个可扩展的解决方案,通过索引超过两百万张网页图片,建立了一个名为MindFinder的系统,可以实现高效、基于素描的图像寻回——这意味着你使用任何一种触屏数字设备的时候,可以用简单的手势勾勒某个事物的草图——它将被视为搜索的指令,然后在屏幕上呈现出你预期中的画面。你一动念头,搜索结果就会冒出来。【搜索即服务】尽管以语义搜索为代表的智能化未来充满了想象力,但它却并非下一代搜索引擎的终极使命。至少在微软看来,搜索引擎并不一定局限在“必应”(Bing)的搜索框当中。看看它的语义搜索实验能在Twitter上发生些什么:在全球已有1.45亿注册用户的Twitter每天承载着9000多万次的更新和超过8亿次的搜索——它已经成为世界上全面的和鲜活的数据库,也是政府、企业和公共机构体察舆情的重要来源。但这些Tweets(指Twitter上的用户言论)中有很大的比例是毫无意义的空话和垃圾内容,且夹杂着各种缩写和不规范语言,这导致传统的关键字搜索所返回的内容列表,其分析价值相当有限。而语义搜索能对海量Tweets和大规模用户之间的联系进行分析,提取关键信息。当你输入“Barack Obama”(美国总统奥巴马)的时候,它能自动统计出数十亿条Twitter信息中对奥巴马的“正面”(positive)和“负面”(negative)评价的比例,并列出诸如“聪明”、“善良”、“决断”、“吝啬”和“愚蠢”等一系列用户形容奥巴马的最频繁的关键词。这意味着搜索引擎本身不仅以搜索框的形式出现,还可以化身成一种互联网服务的工具。“只有当搜索引擎能够被开发出更多应用的时候,万维网才会被带到下一个时代,”微软全球高级副总裁雷斯特对《环球企业家》说。而社交网站的搜索开发显然是其中的一个方向——它不仅可以提升搜索本身在当下的重要性,也符合语义搜索的趋势需要。维基百科创始人吉米·威尔斯(Jimmy Wales)曾试图创建一个结合用户意志和语义关联的搜索引擎网站Wikia Search(请于gemag.com.cn参看《我爱维基》),但后来放弃了。他曾表示过未来的搜索形态可能分散在各种互联网的角落里,而不是搜索框。而据称Facebook也试图将其庞大的数据源进行全面探索,以结构化的数据和开放图谱(open graph)为基础,推出一款语义搜索引擎的计划。在它的背后,是微软与Facebook的搜索战略合作关系——必应搜索(Bing)已成为Facebook诸多服务的一部分。随着微软在语义搜索领域基础研究的产品变现,它将进一步体现在用户在Facebook的搜索体验中。如果Facebook用户使用“必应”搜索“比萨”一词,搜索结果将会出现食物的图片、食谱以及最近的比萨店地图,而不仅仅是提供一些比萨店的网址链接。从内容走向应用和服务,这是搜索的宿命。(本刊记者朱旭冬对本文亦有贡献)

来源:http://www.techweb.com.cn/people/2010-12-03/723732.shtml

分享到:
评论

相关推荐

    基于Springboot + Mybatis框架实现的一个简易的商场购物系统.zip

    基于springboot的java毕业&课程设计

    用于 CNO 实验的 MATLAB 脚本.zip

    1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    基于卷积神经网络的垃圾分类.zip

    卷积神经网络(Convolutional Neural Networks, CNNs 或 ConvNets)是一类深度神经网络,特别擅长处理图像相关的机器学习和深度学习任务。它们的名称来源于网络中使用了一种叫做卷积的数学运算。以下是卷积神经网络的一些关键组件和特性: 卷积层(Convolutional Layer): 卷积层是CNN的核心组件。它们通过一组可学习的滤波器(或称为卷积核、卷积器)在输入图像(或上一层的输出特征图)上滑动来工作。 滤波器和图像之间的卷积操作生成输出特征图,该特征图反映了滤波器所捕捉的局部图像特性(如边缘、角点等)。 通过使用多个滤波器,卷积层可以提取输入图像中的多种特征。 激活函数(Activation Function): 在卷积操作之后,通常会应用一个激活函数(如ReLU、Sigmoid或tanh)来增加网络的非线性。 池化层(Pooling Layer): 池化层通常位于卷积层之后,用于降低特征图的维度(空间尺寸),减少计算量和参数数量,同时保持特征的空间层次结构。 常见的池化操作包括最大池化(Max Pooling)和平均池化(Average Pooling)。 全连接层(Fully Connected Layer): 在CNN的末端,通常会有几层全连接层(也称为密集层或线性层)。这些层中的每个神经元都与前一层的所有神经元连接。 全连接层通常用于对提取的特征进行分类或回归。 训练过程: CNN的训练过程与其他深度学习模型类似,通过反向传播算法和梯度下降(或其变种)来优化网络参数(如滤波器权重和偏置)。 训练数据通常被分为多个批次(mini-batches),并在每个批次上迭代更新网络参数。 应用: CNN在计算机视觉领域有着广泛的应用,包括图像分类、目标检测、图像分割、人脸识别等。 它们也已被扩展到处理其他类型的数据,如文本(通过卷积一维序列)和音频(通过卷积时间序列)。 随着深度学习技术的发展,卷积神经网络的结构和设计也在不断演变,出现了许多新的变体和改进,如残差网络(ResNet)、深度卷积生成对抗网络(DCGAN)等。

    基于 Yolov5的检测模型

    运行程序 1、测试.pt模型文件 1.在pycharm里打开下载的yolov5环境,在根目录打开runs文件,找到trains文件中的best_1.pt即为训练最优模型。 2.在根目录找到 detect.py 文件,修改代码221行默认路径至模型路径,222行路径更改至所需测试图片路径,点击运行。 2、测试.onnx模型文件 1.在pycharm里打开下载的yolov5环境,在根目录打开 export.py 文件,修改默认输出模型类型为onnx,选择best_1.pt输入模型,点击运行。 2.在根目录找到detect_onnx.py文件,修改代码221行默认路径至模型路径,222行路径更改至所需测试图片路径,点击运行。

    郁郁苍苍---基于SpringBoot的多人社区项目.zip

    基于springboot的java毕业&课程设计

    华为FusionAccess桌面云解决方案基于华为FsionCompute云平台的一款虚拟化桌面应用

    华为桌面云解决方案 桌面云架构VDI和IDV VDI:虚拟桌面架构。特点是计算和数据都在云端,集中管理,集中运行。 IDV:智能桌面虚拟化。特点是镜像集中管理,计算和数据还是在终端,集中管理,分散运行。 (从方案的主推厂商看, 业界华为、思杰、Vmware(IDC国内桌面云市场份额排名前三)都主推VDI,目前推IDV架构的只有锐捷、噢易等少数国内厂商)

    一个基于SpringBoot+Editor.md的 API接口文档.zip

    基于springboot的java毕业&课程设计

    基于OpenCV的交通路口红绿灯控制系统设计 python毕业设计-源码+全部数据+使用文档(高分项目).zip

    基于OpenCV的交通路口红绿灯控制系统设计 python毕业设计-源码+全部数据+使用文档(高分项目).zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 【备注】 1、该项目是个人高分毕业设计项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(如软件工程、计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 基于OpenCV的交通路口红绿灯控制系统设计 python毕业设计-源码+全部数据+使用文档(高分项目).zip基于OpenCV的交通路口红绿灯控制系统设计 python毕业设计-源码+全部数据+使用文档(高分项目).zip基于Op

    课设毕设基于SSM的知识产权管理系统源码可运行.zip

    课设毕设基于SSM的知识产权管理系统源码可运行.zip

    基于卷积神经网络的人脸识别.zip

    卷积神经网络(Convolutional Neural Networks, CNNs 或 ConvNets)是一类深度神经网络,特别擅长处理图像相关的机器学习和深度学习任务。它们的名称来源于网络中使用了一种叫做卷积的数学运算。以下是卷积神经网络的一些关键组件和特性: 卷积层(Convolutional Layer): 卷积层是CNN的核心组件。它们通过一组可学习的滤波器(或称为卷积核、卷积器)在输入图像(或上一层的输出特征图)上滑动来工作。 滤波器和图像之间的卷积操作生成输出特征图,该特征图反映了滤波器所捕捉的局部图像特性(如边缘、角点等)。 通过使用多个滤波器,卷积层可以提取输入图像中的多种特征。 激活函数(Activation Function): 在卷积操作之后,通常会应用一个激活函数(如ReLU、Sigmoid或tanh)来增加网络的非线性。 池化层(Pooling Layer): 池化层通常位于卷积层之后,用于降低特征图的维度(空间尺寸),减少计算量和参数数量,同时保持特征的空间层次结构。 常见的池化操作包括最大池化(Max Pooling)和平均池化(Average Pooling)。 全连接层(Fully Connected Layer): 在CNN的末端,通常会有几层全连接层(也称为密集层或线性层)。这些层中的每个神经元都与前一层的所有神经元连接。 全连接层通常用于对提取的特征进行分类或回归。 训练过程: CNN的训练过程与其他深度学习模型类似,通过反向传播算法和梯度下降(或其变种)来优化网络参数(如滤波器权重和偏置)。 训练数据通常被分为多个批次(mini-batches),并在每个批次上迭代更新网络参数。 应用: CNN在计算机视觉领域有着广泛的应用,包括图像分类、目标检测、图像分割、人脸识别等。 它们也已被扩展到处理其他类型的数据,如文本(通过卷积一维序列)和音频(通过卷积时间序列)。 随着深度学习技术的发展,卷积神经网络的结构和设计也在不断演变,出现了许多新的变体和改进,如残差网络(ResNet)、深度卷积生成对抗网络(DCGAN)等。

    基于springboot-mqtt的温度、湿度、六氟化硫浓度实时监控系统.zip

    基于springboot的java毕业&课程设计

    房地产企业财务风险的成因与防范对策-以万科集团为例.docx

    房地产企业财务风险的成因与防范对策-以万科集团为例.docx

    基于SpringBoot框架的中小企业完全开源的ERP.zip

    基于springboot的java毕业&课程设计

    基于springboot的动漫弹幕网站.zip

    基于springboot的java毕业&课程设计

    基于SpringBoot + Vue的电影售票及影院管理系统.zip

    基于springboot的java毕业&课程设计

    基于Python+定向爬虫的商品比价系统的实现的设计与实现+详细文档+全部资料(高分毕业设计).zip

    基于Python+定向爬虫的商品比价系统的实现的设计与实现+详细文档+全部资料(高分毕业设计).zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求,如果有需要的话可以放心下载使用。 【备注】 1、该项目是个人高分毕业设计项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(如软件工程、计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。基于Python+定向爬虫的商品比价系统的实现的设计与实现+详细文档+全部资料(高分毕业设计).zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用需求。

    MySQL8.4.0 LTS(mysql-8.4.0-solaris11-sparc-64bit.tar)

    MySQL8.4.0 LTS(mysql-8.4.0-solaris11-sparc-64bit.tar)适用于Oracle Solaris 11 (SPARC)

    CVE-2018-3191 反弹shell

    反弹shell

    植物保护-深度学习-YOLOv5-病虫害识别训练数据集

    植物保护-深度学习-YOLOv5-病虫害识别训练数据集是一个精心策划的数据集,旨在为农业科技领域的研究人员提供强大的工具,以改善病虫害的识别和管理工作。数据集包含了10000张高清图像,覆盖了10余种常见的植物病虫害,每一张图像都经过了专业标注,确保了数据的质量和准确性。 为了进一步提升模型的泛化能力和鲁棒性,数据集经过了数据增强处理,包括随机旋转、翻转、缩放和裁剪等多种变换,从而扩大了训练数据的多样性。这种增强处理有助于模型学习到更多的特征,提高其在实际应用中的表现。 此数据集适用于深度学习框架YOLOv5,它是一个高效的目标检测模型,能够实时地识别和定位图像中的病虫害。通过使用这个数据集,研究人员可以训练和优化YOLOv5模型,使其在病虫害的早期检测和防治中发挥关键作用。 植物保护-深度学习-YOLOv5-病虫害识别训练数据集的推出,不仅能够促进农业科技的发展,还能够帮助农业生产者更有效地管理作物健康,减少农药使用,保护环境,实现可持续农业。

    MySQL8.4.0 LTS(mysql-server-8.4.0-1ubuntu22.04-amd64.deb-bundle)

    MySQL8.4.0 LTS(mysql-server_8.4.0-1ubuntu22.04_amd64.deb-bundle.tar)适用于Ubuntu 22.04 Linux (x86, 64-bit)

Global site tag (gtag.js) - Google Analytics